为 什么 要 写 这 本 书 


大 数据 、 数 据 挖 所 和 机 器 学 习 、 人 工 智能 以 及 数据 可 视 化 发 展 到 


需求 ， 而 是 经 历 了 长 时 间 的 理论 发 展 和 实际 应 


关于 海量 数据 及 数 拉 
索 任 何 文献 去 考查 究竟 是 在 何 时 开始 探索 这 一 领域 的 
网 络 、 遗 传 算法 、 模 糊 数学 、 支 持 向 量 机 等 


法 运 


探索 之 


局 挖 握 的 概念 与 理论 ， 乃 至 相应 的 产品 和 


于 水 下 机 器 人 的 


后 的 必然 结果 。 


了 一 个 全 新 的 阶段 ， 开 始 影响 着 企业 、 组 织 和 个 人 理解 数据 并 进行 决策 的 各 个 方面 。 


工具 ， 早 在 至 少 二 十 年 之 前 就 已 出 现 ， 
， 仅 赁 笔者 个 人 的 经 验 ， 就 可 以 追溯 到 20 世 纪 90 生 
控制 当中 。 数 


的 领域 。 就 SAS 而 言 ， 
与 技术 可 视 化 ， 其 一 直 在 可 视 化 的 道路 上 前 进 和 发 


时 至 今日 ， 在 运算 方法 上 以 迭代 与 分 步 为 特征 的 数据 分 析 ， 包 括 机 器 学 习 ， 从 和 


从 最 初 主机 上 的 命令 行 运行 方式 ， 到 出 现 | 
展 着 。 


图 | 


形 化 界面 的 版 本 ， 到 提供 集成 的 开发 


H 


大 的 数据 处 理 、 更 为 


杂 的 深度 学 习 和 更 为 广泛 的 可 视 化 


学 习 。 其 新 一 代 分 析 平 台 SAS Viya 正 是 SAS 公 司 在 这 些 领 域 所 做 贡献 和 突破 的 集中 体现 。 


SAS Viya 是 一 个 以 大 数据 、 人 工 智能 以 及 数 
、 可 扩展 性 和 开放 性 。 从 而 可 以 利 


mp 


继 上 一 本 书 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 


和 技术 ， 能 够 快速 利用 SAS Viya 开 发 自己 的 大 数据 分 
一 步 深入 学 习 提供 良好 的 开端 


人 工 智能 的 优势 ， 并 


居 可 视 化 为 导向 的 、 全 新 的 统一 平台 和 环境 。 既 集中 提供 了 大 数 
分 析 方法 来 有 效 地 处 理 大 数据 ， 并 且 使 得 这 一 切 在 可 视 化 的 环境 和 方法 下 得 到 实现 。 


A, 
结合 


传统 的 


ATM, BSR, Bei 


机 处 理 (SMP) 模式 到 大 规模 并 行 处 理 (MPP) 模式 
户 ， 都 得 到 了 很 好 的 计算 支撑 。 在 这 个 过 程 中 ，SAS 作 为 领导 者 和 推动 者 , 一 


即使 在 国内 ， 也 已 经 不 算是 新 生 寻 


物 了 。 至 于 人 工 智能 ， 
F 代 。 彼 时 ， 我 的 研究 生 导师 华 克 强 老师 ， 就 已 经 开始 带领 实验 室 的 老师 和 学 生 们 
局 分 析 过 程 和 方法 的 可 视 化 ， 以 及 分 析 结 果 的 可 视 化 ， 也 是 一 直 都 存在 并 


这 些 概念 并 不 是 代表 几 新 的 理论 或 突然 出 现 的 实际 


更 是 人 类 很 早 就 梦想 要 突破 的 领域 ， 无 须 检 
探讨 如 何 把 诸如 神经 
且 为 业界 所 努力 发 展 


环境 ， 再 到 出 现 了 分 析 专 家 和 业务 专家 都 可 以 使 


的 可 视 化 分 析 和 建 模 产品 ， 一 直到 现在 的 全 线 产品 


介绍 


H Ea 


》 全 内 广大 的 上 


SAS 9， 帮 助 


ITEA 


户 学 习 和 使 用 SAS 之 


析 和 人 工 智能 应 用 并 实现 可 视 化 


展现 。 本 书 在 保证 


面 讲解 各 技术 点 的 


请 注意 ， 本 书 是 基于 SAS Viya 3.1 编 写 的 ， 在 功能 上 ，SAs Viya 的 新 版 本 会 不 断 提 高 和 增强 ， 这 些 也 会 在 本 书 的 后 续 版 本 中 不 断 得 到 体现 。 


读者 对 象 


BS 


要 适合 于 以 下 读者 : 


+ 使 用 和 学 习 SAS 的 科技 工作 和 工程 技术 人 员 。 


“ 团队 的 工作 涉及 SAS 产 品 与 技术 的 管理 人 员 。 


“ 需要 使 用 第 三 方 开发 语言 调用 SAS Viya 提 供 的 分 


析 功 能 的 工程 技术 人 员 。 


+ 使 用 SAS Viya 进 行 大 数据 平台 规划 和 建设 的 管理 和 技术 人 员 。 


“ 使 用 SAS 进 行 项 目 规划 、 实 施 和 管理 的 系统 架构 师 、 系 统管 理 员 和 项 目 管理 人 员 。 


的 突破 、GPU 的 出 现 及 其 在 数据 分 析 领 域 的 广泛 应 
在 引领 数据 分 析 各 个 领域 的 潮流 ， 包 括 大 数据 、 可 视 化 以 及 机 器 


居 、 人 工 智能 以 及 数据 可 视 化 所 需要 的 专业 功能 ， 


， 使 得 更 为 庞 


也 提供 了 支持 这 些 专业 功能 所 必需 的 高 性 


后 ， 本 书 旨 在 全 面 快速 地 介绍 SAS Viya， 让 更 多 用 户 学 习 和 使 用 SAS 的 最 新 平台 
基础 之 上 ， 包 含 了 必要 的 细节 ， 使 得 读者 能 够 迅速 系统 地 了 解 SAS Viya， 并 为 进 


如 何 阅读 本 书 

本 书 共有 9 章 ， 下 面 介 绍 各 个 章节 的 主要 内 容 ， 以 方便 大 家 查阅 。 

第 1 章 主要 阐述 了 SAS Viya 的 架构 和 基本 组 成 。 第 2 章 阐 述 了 SAs 应 用 开发 的 基本 概念 ， 旨 在 帮助 读者 从 整体 上 理解 SAS Viya 以 及 基于 SAS Viya 的 应 用 开发 。 建 议 每 一 位 读者 都 仔细 研读 这 两 章 。 

第 3 章 和 第 4 章 ， 介 绍 了 CAs 的 数据 读 写 和 管理 以 及 数据 处 理 。 需 要 利用 SAS Viya 处 理 数据 的 读者 可 仔细 阅读 这 两 章 。 

第 5 章 的 目的 在 于 保证 本 书 结构 的 完整 性 ， 介 绍 了 SAS Viya 中 的 数据 探索 和 展现 。 熟 悉 SAS 9 的 读者 可 以 略 过 本 章 。 

第 6 章 是 关于 用 SAS Viya 进 行 数据 分 析 的 章节 。SAS Viya 在 数据 分 析 方面 添加 了 很 多 机 器 学 习 和 深度 学 习 的 方法 ， 建 议 分 析 建 模 领 域 的 读者 仔细 阅读 。 本 书 的 后 续 版 本 也 会 继续 加 强 这 方面 的 内 容 

有 很 多 的 SAS 用 户 有 着 长 期 使 用 SAS 9 的 宝贵 经 验 ， 在 SAS 9.4 系 统 上 也 开发 部 署 了 很 多 成 熟 的 应 用 。 为 此 ， 第 7 章 专 门 阐述 了 SAS Viya 和 SAS 9 之 间 的 集成 和 交互 。 

第 8 章 是 关于 CAS 编 程 语言 的 介绍 。 利 用 CAS 编 程 语言 可 以 最 灵活 且 最 大 限度 地 充分 利用 SAS Viya 的 所 有 数据 分 析 和 处 理 功能 。 如 果 读 者 期 望 能 够 直接 调用 CAs 中 的 ACTION ， 进 行 灵活 自由 且 功 能 齐全 
的 数据 分 析 和 数据 处 理 ， 建 议 仔细 研读 本 章 。 

第 9 章 阐述 了 如 何 用 Java、Lua、Python 开 发 基于 SAS Viya 的 应 用 。 介 绍 了 SAS Viya 作 为 一 个 开放 系统 ， 如 何 支持 第 三 方 开发 语言 ， 让 更 多 的 数据 分 析 开 发 者 借助 于 SAS Viya 的 分 析 和 处 理 能 力 ， 使 
他 们 自己 熟悉 的 开发 语言 建立 满足 自己 需求 的 应 用 。 
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， 为 了 让 系统 性 的 知识 可 以 得 到 完整 的 传播 ， 本 书 的 每 一 位 作者 都 做 出 了 不 懈 的 努力 。 
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Purpose 


Big data,data mining and machine learning,artificial intelligence and data visualization have entered a new era and began to affect all aspects of decision-making based on 
information by businesses,organizations and individuals.These concepts are not representation of the new theory nor the sudden emergence of the actual needs,they are results from a 


long period of theoretical development and exploration in practical application. 


The concept and technology of mass data and data mining,from theory to practice and even products and tools,appeared at least20 years ago.lt is not a new thing even in China.As 
for artificial intelligence,human being has been dreaming to break through in this field for a long time.When was this field explored?Without studying any literature on the history of 
science,but just based on the author's personal experience,it can be traced back to the nineties of last century.At that time,my graduate tutor,Keqiang Hua,had begun to lead teachers and 
students to explore how to apply algorithms such as neural networks,genetic algorithms,fuzzy mathematics and support vector machines to underwater robots.Huge efforts have been 
exerted in area of Data Visualization as well.In terms of SAS,from the original command line on the mainframe to the graphical interface version,to integrated development environment,to 
visual analysis and modeling products that can be used by analysts and business experts,until now the full range of products and technology visualization,it has been constantly pursuing 


and developing in the field of visualization. 


Today,data analysis,characterized by iteration and step-by-step calculating,including in machine learning,has successfully extended from standalone processing mode(SMP)to large- 
scale parallel processing mode(MPP).And GPU has emerged and been widely used in the field of data analysis. These technologies have provided a very good calculation support to mass 
data processing,more complex deep learning,and more extensive visualization users.In this process,SAS as a leader and promoter,has been leading the trend of data analysis in all areas 


including big data,visualization,and machine learning.A new generation analytics platform,SAS Viya,is the core of SAS contribution and breakthrough in these areas. 


SAS Viya is a brand new,unified platform and environment oriented to big data,artificial intelligence and data visualization.It provides specialized functions required by big 
data,artificial intelligence and data visualization,as well as high performance,scalability and openness required to support these functions.Thus,users can take the advantages of artificial 


intelligence combined with traditional analytical methods to effectively process big data and implement all of these in the visual environment and methods. 


The last book"Understand SAS-Data Processing,Analytical Optimization and Business Applications"is a comprehensive introduction to SAS 9.It is designed to help the majority of SAS 
users learn and use SAS.This new book is a quick introduction to SAS Viya and aimed to help SAS users to learn and use the latest SAS platform and technology to quickly develop their 
own big data analysis and artificial intelligence applications.This book contains appropriate amount of details that enable the readers to systematically understand SAS Viya and provides a 


good starting point for further learning. 


Please note that this book is based on SAS Viya 3.1.New version of SAS Viya will continue to improve and enhance.These improvements and enhancements will be reflected in the 


subsequent revisions of this book. 


Audience 


This book is primarily targeted to following readers: 
+ Technical and engineering personnel who want to use or study SAS. 
- Engineers who need to use the third-party programming language to invoke SAS Viya to provide analytical functions. 
+ System architects,system administrators,and project managers who use SAS for project planning,implementation,and administration. 
+ Management and technical staffs who use SAS Viya for big data platform planning and implementation. 


* Management staffs whose teams involve SAS products and technology in daily work. 


Organization 
There are totally9 chapters in this book. 
First chapter mainly describes the infrastructure and basic components of SAS Viya. 


Second chapter introduces basic concepts of SAS application development,which aims to help readers understand SAS Viya and Viya-based application development as a whole.It is 


necessary for every reader to study these two chapters first. 


Chapter 3 and Chapter 4 describe how to read,write CAS data and administration of CAS and data processing,which is very helpful for readers who need to use SAS Viya to process 


data. 
Chapter 5 makes up the structural integrity of this book.It introduces data exploration and presentation in SAS Viya.Users who are familiar with SAS 9 can skip this chapter. 


Chapter 6 is related to using SAS Viya to perform data analysis.SAS Viya has added a lot of machine learning and deep learning methods to data analysis.Readers in analysis and 


modeling fields will find it useful for their work.Subsequent versions of this book will continue to enhance this part. 


A lot of SAS users have accumulated valuable experience over a long term use of SAS 9 and have developed a number of proven applications on SAS 9.4 system,given that Chapter7 


explains the integration and interaction between SAS Viya and SAS 9. 


Chapter 8 introduces CAS programming language,which provides great flexibility and makes full use of data analysis and processing capabilities of SAS Viya.Those users who need to 


call the actions directly to achieve flexible,free and full-featured data analysis and processing can read this chapter carefully. 


Chapter 9 explains how to use Java,Lua,and Python to develop SAS Viya-based applications.|t describes how SAS Viya being an open system supports third-party programming 


language.With the analysis and processing capabilities of SAS Viya,more data analysis developers can use their familiar programming language to build applications as needed. 
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SAS Viya 平 台 是 SAS 公 司 于 2016 年 推出 的 新 一 代 的 统一 、 开 放 及 云 就 绪 的 高 性 能 和 可 视 化 分 析 平台 。SAS Viya 引 入 了 CAS (Cloud Analytics Services， 云 分 析 服 务 ) 服务 器 ， 提 供 了 基 
扩展 的 高 性 能 分 析 能 力 。 


第 1 章 SAS Viya 的 架构 和 基本 组 成 
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于 内 存 处 理 的 可 


本 章 将 从 SAS Viya 平 台 的 架构 开始 ， 介 绍 SAs Viya 平 台 的 基本 特性 、 主 要 组 成 部 分 及 各 部 分 之 间 的 交互 关系 ， 并 阐述 在 部 署 基 于 SAS Viya 平 台 的 产品 和 解决 方案 时 可 供 选择 的 部 署 方式 。 在 基本 了 解 
SAS Viya 平 台 的 架构 之 后 ， 本 章 将 着 重 介绍 在 SAs Viya 平 台 上 的 各 种 数据 访问 方式 ， 以 帮助 读者 理解 SAS Viya 平 台中 的 串 行 、 并 行 数据 加 载 及 如 何 选择 更 有 效 的 数据 加 载 策略 。 本 章 最 后 还 将 介绍 CAS 服 务 


器 的 监控 和 管理 ， 以 及 SAS Viya 平 台 的 安全 性 和 数据 容错 性 。 


TER, SAS Viya 是 一 个 平台 ， 基 于 这 个 平台 ，SAS 会 推出 各 种 用 于 数据 处 理 和 分 析 的 产品 和 面向 特定 业务 与 行业 的 解决 方案 。 基 于 SAS Viya 所 具备 的 开放 性 ， 任 何 第 三 方 都 可 以 用 其 他 开发 工具 (例如 
Java) 来 开发 自己 的 应 用 。 但 是 SAS Viya 本 身 并 不 是 一 个 面向 特定 具体 功能 的 应 用 或 解决 方案 。 


本 书 内 容 将 基于 SAS Viya 平 台 的 SAs 可 视 化 数据 挖掘 与 机 器 学 习 产 品 来 介绍 ， 在 描述 时 ， 如 果 不 会 涉及 该 产品 的 特有 功能 ， 那 么 本 书 将 不 会 提 及 该 产品 。 


1.1 SAS Viya 的 架构 


SAS Viya 平 台 
些 特征 。 


EFA (In-Memory) 处 理 ， 可 提供 高 性 能 分 析 和 可 视 化 分 析 功 能 ， 同 时 还 提供 了 便捷 高 效 的 环境 管理 功能 和 安全 性 ， 并 且 可 以 部 署 在 云 环境 中 。SAS Viya 平 台 具 备 如 


1.1 所 示 的 一 


1.1 SAS Viya 特 征 


(1) 统一 性 


SAS Viya 以 完整 集成 的 架构 体系 、 通 用 共享 的 低层 代码 实现 和 可 视 化 的 界面 ， 使 得 采用 SAS Viya 平 台 的 用 户 可 以 统一 实现 和 管理 整个 分 析 生命 周期 中 的 所 有 活动 一 一 从 数据 处 理 和 管理 ， 到 基本 的 报表 


和 数据 探索 ， 再 到 分 析 模 型 的 开发 和 管理 等 。SAS Viya 为 用 户 提供 了 一 个 可 管理 可 掌控 的 平台 环境 以 创建 灵活 适用 的 分 析 资 产 。 


(2) 开放 性 


SAS Viya 的 开放 性 是 其 重要 特性 。 开 发 人 员 不 但 可 以 使 用 SAS 进 行 应 用 的 开发 ， 而 且 还 可 以 利用 SAS Viya 所 提供 的 第 三 方 开发 语言 接口 使 用 Python、Java、Lua 语 言 ， 以 及 REST AP 进行 应 用 的 开发 。 


而 这 其 中 不 变 的 是 ， 无 论 采 用 哪 种 方式 和 语言 ， 都 可 以 自由 访问 和 调用 SAS Viya 所 提供 的 强大 分 析 能 力 。 此 外 ， 公 共 的 REST API 使 得 开发 人 员 可 以 从 他 们 的 应 用 程序 中 直接 调用 SAS Viya 的 分 析 功 能 ,使 用 


REST 服 务 的 任何 应 用 程序 都 可 以 利用 SAS Viya 的 分 析 能 力 。SAS Viya 的 这 种 开放 性 可 以 帮助 那些 虽 不 熟悉 SAS 编 码 但 是 了 解 Python、Lua 或 Java 语 言 的 数据 分 析 从 业者 自由 利用 SAS 全 面 丰富 且 业 界 领先 的 


分 析 功 能 。 


(3) 强大 的 分 析 能 力 


SAS 强 大 、 领 先 的 分 析 能 力 在 SAS Viya 中 得 到 了 进一步 加 强 。SAS Viya 中 的 内 存 分 析 引 擎 除了 支持 大 数据 的 快速 分 析 之 外 ， 还 可 将 数据 置换 到 磁盘 以 支持 超过 可 | 


内 存 大 小 的 数据 。 其 内 存 分 析 引 擎 的 


分 布 式 架构 可 以 根据 需要 灵活 地 动态 扩展 其 处 理 能 力 ， 并 且 SAS Viya 还 提供 了 新 的 更 为 强大 的 分 析 算 法 ,例如 在 基于 SAS Viya 的 可 视 化 数据 挖 握 和 机 器 学 习 产 品 提供 的 自动 聚 类 中 ， 不 需要 预先 指定 多 少 个 


唯一 类 等 新 功能 。 此 外 ，SAS Viya 还 将 自己 的 分 析 能 力 扩展 到 了 库 内 (In-Database) 、Hadoop 内 (In-Hadoop) 、 流 内 (In-Stream) 和 设备 内 (In-Device) 。 


(4) 云 就 绪 


SAS Viya 支 持 公 有 云 和 私有 云 的 部 署 ， 以 降低 平台 总 体 成 本 。 它 能 识别 并 利用 额外 的 计算 、 内 存 和 磁盘 资源 以 满足 分 析 的 需求 ， 其 提供 的 API 服 务 可 提供 自助 访问 ， 来 预定 和 快速 运行 SAS， 以 及 从 其 他 
应 用 中 调用 SAS 的 能 力 。SAS Viya 支 持 工 业 标 准 的 云 平 台 即 服务 、Cloud Foundry， 还 支持 快速 和 自动 部 署 、 灵 活 扩展 和 管理 式 更 新 。 


1.1.1 SAS Viya 平 台 的 组 成 部 分 


图 1.2 给 出 了 SAS Viya 平 台 的 架构 示意 图 。 该 架构 包括 了 客户 端 、SAS Viya 应 用 和 CAS 服 务 器 、 数 据 层 和 原 SAS 系 统 。 其 中 SAS Viya 应 用 和 CAS 服 务 器 为 SAS Viya 平 台 的 组 成 部 分 。 
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图 1.2 SAS Viya 平 台 架 构 


1. 客 户 端 


SAS Viya 提 供 了 基于 Web 的 客户 端 开发 和 管理 SAS 应 用 、 对 SAS Viya 环 境 进行 监控 和 管理 。 同 时 ， 基 于 SAs Viya 平 台 的 SAs 产 品 和 解决 方案 也 有 自己 对 应 的 Web 客 户 端 。 


(1) Web 客 户 端 


SAS Studio 是 SAS 提 供 的 SAS Viya 平 台 的 图 形 化 开发 界面 。 用 户 通 过 该 界面 进行 SAS 和 CAS 语 言 的 开发 、 管 理 ， 提 交 运 行 并 获取 结果 ， 同 时 还 可 利用 SAS Studio 提 供 的 交互 式 方式 指导 完成 分 析 过 程 。 
SAS 可 视 化 数据 挖掘 与 机 器 学 习 (SAS Visual Data Ming and Machine Learning) 也 使 用 SAS Studio 进 行 开发 。 第 2 章 会 详细 介绍 SAS Studio。 


当 SAS Viya 中 部 署 了 其 他 SAS 产 品 或 解决 方案 时 ， 例 如 SAS 事 件 流 处 理 (SAS Event Stream Processing) 、SAS 可 视 化 调查 (SAS Visual Investigator) 等 ， 其 对 应 的 客户 端 ， 如 SAS Event Stream 
Processing Studio 也 包含 在 Web 客 户 端 之 列 。 


(2) CAS 服 务 器 监视 器 


CAS 服 务 器 监视 器 (CAS Server Monitor) 是 SAS 提 供 的 监控 和 管理 CAS 服 务 器 的 图 形 化 界面 。 本 章 后 面 将 会 专门 介绍 该 功能 。 


2.SAS Viya 应 用 


SAS Viya 应 用 ， 又 称 为 SAS Viya 产 品 和 解决 方案 ， 是 SAS Viya 的 重要 组 成 部 分 。 其 中 包含 了 Base SAS, SAS Workspace Server 和 SAS Object Spawner 组 成 的 SAS 客 户 端 、SAS/CONNECT 服 务 器 
(SAS/CONNECT Server) ， 以 及 嵌入 式 的 Web 应 用 服务 器 。1.1.3 节 将 要 介绍 的 基于 SAS Viya 的 产品 ， 例 如 SAs 可 视 化 数据 挖掘 与 机 器 学 习 、SASs 可 视 化 调查 和 SAS 事 件 流 处 理 产品 ， 都 属于 SAs Viya 应 上 
的 范畴 。 


(1) SAS 客 户 端 


如 果 大 家 熟悉 SAS 智 能 平台 (SAS Intelligence Platform) ， 那 么 请 注意 ，SAS Viya 平 台 的 SAS 客 户 端 并 不 是 传统 意义 上 的 客户 端 ， 例 如 SAS 智 能 平台 中 的 客户 端 。 传 统 意 义 的 客户 端 主 要 用 于 接受 用 户 
的 操作 和 指令 ， 与 用 户 进行 直接 交互 ; 而 在 SAS Viya 平 台中 ，“SAS 客 户 端 ” 是 相对 于 图 1.2 中 的 CAS 服 务 器 而 言 的 ， 主 要 作用 是 接收 来 自 最 左边 SAS Viya 客 户 端 的 指令 ， 实 现 与 CAS 服 务 器 的 交互 。 


连接 CAS 服 务 器 的 过 程 可 帮助 我 们 理解 这 些 概念 ， 此 为 用 户 登录 SAS Studio 进 行 应 用 开发 并 提交 CAS 执 行 的 过 程 ， 如 图 1.3 所 示 。 


1) 当 用 户 登 录 到 SAs Studioft, SAS Studio 连 接 SAS Object Spawner。 


2) SAS Object Spawner 启 动 SAS Workspace Server， 并 建立 SAS Studio 会 话 与 该 SAS Workspace Server 之 间 的 连接 。 


3) 用 户 通 过 SAS Studio 提 交 需 要 连接 到 CAS Server 运 行 的 程序 ， 会 首先 提交 到 已 连接 的 SAs Workspace Server, 


4) SAS Workspace Server 连 接 CAS 服 务 器 ， 将 代码 解析 为 CAS 语 言 ， 并 由 CAS 服 务 器 执行 。 
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图 1.3 ”连接 CAS 服 务 器 


通过 以 上 过 程 不 难 理解 ， 对 于 CAS 服 务 器 来 说 ，SAS Workspace Server 和 SAS Object Spawnet 为 客户 端 。 这 些 组 成 部 分 有 别 于 第 三 方 语言 ， 例 如 Java、Python、Lua 或 REST API 开 发 的 访问 CAS 服 务 
器 的 客户 端 ， 都 是 由 SAS 开 发 提供 的 ， 称 为 SAS 客 户 端 。 


SAS 客 户 端 除 了 可 以 将 提交 的 代码 解释 为 CAS 语 言 并 提交 到 CAS 服 务 器 执行 之 外 ， 还 可 以 直接 执行 数据 分 析 、 处 理 和 展示 。 


在 SAS 客 户 端 启动 的 SAS 会 话 ， 我 们 也 称 之 为 SAAS 客户 端 会 话 。 


(2) SAS/CONNECT 服 务 器 


如 果 


提交 到 
集成 。 


(3 


提供 SAS Viya 开 发 编程 界面 的 Web 应 用 SAS Studio, 


(4 


SAS Viya 平 台 支 持 用 户 使 
3.CAS 服 务 器 


SAS Viya 中 的 CAS 服 务 器 通过 云 分 析 服 务 (Cloud Analytics Services, CAS) 可 提供 高 性 能 分 析 和 可 视 化 分 析 ， 一 般 简称 为 CAs。CAS 可 以 提供 基于 云 的 运行 时 环境 ， 
行 时 环境 是 指数 据 管理 和 分 析 发 生 的 硬件 和 软件 的 组 合 。 


0 


嵌入 式 Web 应 用 服务 器 


Java、Python、Lua 或 REST API 客 户 端 


户 已 有 SAS 9 系统 (图 1.2 中 称 为 原 SAS 系 统 ) ， 当 该 SAs 9 系统 中 也 存在 SAS/CONNECT 服 务 器 组 件 时 ，SAS Viya 平 台 的 SAS/CONNECT 服 务 器 组 件 通 常 F 
原 SAS 9 系统 中 执行 ， 也 可 以 从 原 SAS 9 系统 中 将 数据 、 代 码 和 程序 提交 到 SAS Viya 中 


Java、Python、Lua 等 第 三 方 语言 及 REST APl 来 开发 自己 的 应 用 去 调用 SAs Viya 的 分 析 能 力 。 本 书 第 9 


介绍 如 何 使 


于 将 SAs Viya 中 的 数据 、 代 码 和 程序 
由 Base SAS 执 行 ， 从 而 提供 SAS Viya 与 原 SAS 9 系统 的 集成 。 本 书 第 7 章 会 介绍 SAS Viya SIRSAS 9 系统 的 


以 上 各 种 语言 和 API 开 发 基于 SAS Viya 的 应 用 。 


进行 数据 管理 和 分 析 。 这 里 的 运 


CAS 服 务 器 可 部 署 在 单 台 机 器 上 (如 图 1.4 所 示 ) ， 称 为 SMP (Symmetric Multi-Processing， 对 称 多 处 理 ) 模式 ; 也 可 以 部 署 在 多 台 机 器 组 成 的 分 析 集群 上 ， 称 为 MPP (Massively Parallel 
Processing， 大 规模 并 行 处 理 ) 模式 。 在 进行 集群 部 署 时 ， 其 可 与 Hadoop 数 


CAS 
Controller 


CAS Server 
Monitor 


SAS Data 
Connector 
SAS Data 
Connect 
Accelerator 


SMP CAS 


(1) CAS 控 制 器 和 CAS 工 作 节 点 


居 节 点 共享 同样 的 硬件 。 
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图 1.4 CAS 服 务 器 
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在 SMP 模 式 下 的 CAS 中 ，CAS 所 部 署 的 机 器 为 CAS 控 制 器 (Controller) ， 执 行 数据 处 理 和 分 析 的 工作 。 在 单 台 机 器 上 ， 其 可 利用 多 个 CPU 进行 并 行 处 理 和 分 析 。 在 SMP 模 式 中 ， 则 没有 CAs 工 作 节点 


(Worker) 。 


协调 CAs 工 作 节 点 执行 处 理 。 每 个 CAs 工 作 节点 利用 本 节点 的 多 个 CPU 对 在 其 内 存 中 的 数据 进行 并 行 处 理 和 分 析 。 


(2) CAS 服 务 器 监控 器 


在 CAs 控 制 器 节点 中 还 安装 了 CAs 服 务 器 监控 器 ， 用 于 提供 看 


于 Web 的 图 


(3) SAS Data Connector 和 SAS Data Connect Accelerator 


形 化 界面 ， 以 实现 对 CAS 服 务 器 进行 配置 、 监 控 和 管理 等 功能 。 


SAS Data Connector 系 列 和 SAS Data Connect Accelerator 系 列 产 品 提 供 了 CAS 对 Hadoop 数 据 存储 和 其 他 数据 存储 系统 ， 例 如 对 关系 型 数据 库 或 Hadoop 的 访问 。 根 据 用 户 需要 处 理 分 析 的 数据 存储 


系统 类 型 ， 在 部 署 过 程 中 ， 连 接 对 应 数据 存储 系统 的 SAS 数 据 连 接 器 (SAS Data Connector) 应 该 安装 到 CAS 控 制 器 和 所 有 CAS 工 作 节 点 上 。 当 CAS 需 要 访问 的 数 所 


SAS 数 据 连接 加 速 器 (SAS Data Connect Accelerator) 产品 ， 以 提供 对 该 数据 存储 系统 的 并 行 访问 。 


居 存 储 系 统 为 MPP 架 构 时 ， 可 安装 对 应 的 


例如 ， 如 果 CAS 需 要 访问 Hive， 则 需要 在 CAS 控 制 器 和 CAS 工 作 节 点 中 安装 SAS Data Connector to Hive 和 SAS Data Connect Accelerator to Hive。 前 者 提供 了 到 Hive 的 串 行 访问 ， 后 者 与 Hadoop 
节点 上 的 SAS Embedded Process 一 起 为 CAS 提 供 数据 的 并 行 访问 。 


(4) Hadoop NameNode 和 Hadoop DataNode 


当 CAS 服 务 器 并 行 访问 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 的 SASHDAT 数 据 时 ，CAS 控 制 器 和 工作 节点 与 HDFS 的 NameNode 和 DataNode 共 享 集群 硬件 。 


4 数据 层 


SAS Viya 平 台 可 访问 的 数据 可 以 存储 在 关系 型 数据 库 或 Hadoop 库 中 。 当 数据 库 为 MPP 架 构 且 为 SAS Embedded Process 所 支持 时 ， 数 据 的 读 取 / 加 载 可 串 行 或 并 行进 行 ， 其 他 的 则 仅 能 串 行进 行 。 表 
1.1 给 出 了 SAS Viya 3.1 中 SAS 数 据 连 接 器 和 数据 连接 加 速 器 支持 的 数据 平台 ， 其 中 标注 ‘Vv’ 的 表示 支持 。 


表 1.1 基于 SAS Viya 3.1 的 SAS 数 据 访问 产品 


数据 平台 SAS/ACCESS Interface to * 


对 Hadoop 和 Teradata 可 提供 数据 的 并 行 访问 。 而 对 于 其 他 非 MPP 架 构 的 数据 平台 ，SAS Viya 3.1 提 供 了 SAS 数 据 连 接 器 用 于 支持 串 行 访问 。 此 外 ， 前 面 也 提 到 过 ， 在 SAS 客 户 端 中 也 可 以 直接 执行 一 
些 分 析 和 处 理 操作 ， 这 些 操作 将 通过 SAS/ACCESS 接 口 来 完成 。SAS Viya 3.1 中 仅 提 供 了 对 PC Files (如 Microsoft Excel 文 件 ) 的 支持 。 


5. 原 SAS 9 系统 


原 SAS 9 系统 不 是 SAS Viya 的 组 成 部 分 ， 图 1.2 中 给 出 该 部 分 是 对 于 已 经 部 署 了 SAS 9 系统 的 企业 或 组 织 ， 可 以 将 SAS Viya 和 已 有 SAS 9 系统 通过 SAS/CONNECT 进 行 集成 。 可 在 SAS Viya 中 将 数据 、 代 
码 和 程序 提交 到 已 有 SAS 9 系统 中 执行 ， 也 可 从 已 有 SAS 9 系统 中 将 数据 、 代 码 和 程序 提交 到 SAS Viya 中 的 SAS 客 户 端 执 行 。 此 集成 要 求 原 SAS 9 系统 上 有 SAS/CONNECT 服 务 器 组 件 。 本 书 的 第 7 章 会 详细 
介绍 这 部 分 内 容 。 


1.1.2 SAS Viya 平 台 的 部 署 架 构 


SAS Viya 可 通过 Linux 操 作 系 统 标准 的 部 署 和 更 新 软件 Ansible 和 yum 来 进行 部 署 。Ansible 具 有 简单 并 且 灵 活 部 署 多 台 机 器 的 能 力 。SAS 基 于 软件 订单 提供 Ansible 任 务 配置 文件 并 且 可 以 根据 具体 环境 
来 定制 。 当 运行 该 任务 配置 文件 时 ，Ansible 将 自动 执行 一 系列 yum 命 令 来 部 署 SAS Viya. 


企业 或 组 织 在 部 署 SAS Viya 时 ， 可 以 选择 是 否 将 CAS 服 务 器 与 SAS Viya 应 用 部 署 在 相同 的 机 器 上 ， 并 且 选 择 CAS 服 务 器 是 为 SMP 模 式 还 是 MPP 模 式 。 这 些 选择 会 产生 SAs Viya 的 三 种 主要 部 署 架构 : 
单机 部 署 、SMP CAS 服 务 器 部 署 于 专门 的 机 器 上 、MPP CAS 服 务 器 部 署 。 


1.SAS Viya 应 用 和 CAS 服 务 器 在 单 台 机 器 上 的 部 署 


在 这 种 模式 下 ，SAS Viya 平 台 的 所 有 组 件 ， 包 括 SAS Viya 应 用 和 CAS 服 务 器 均 部 署 在 同一 台 机 器 上 。 此 时 CAS 服 务 器 为 SMP 模 式 。 该 部 署 适 用 于 中 小 企业 和 组 织 。 


司 1.5 所 示 的 是 企业 部 署 一 套 SAS Viya 的 场景 。 企 业 或 组 织 经 常 需要 部 署 多 套 基于 SAS Viya 平 台 的 SAS 产 品 或 解决 方案 ， 以 作为 开发 环境 、 测 试 环境 、 过 渡 环境 和 生产 环境 使 用 ，Ansible 支 持 一 次 部 署 
多 套 基于 SAS Viya 平 台 的 SAS 产 品 或 解决 方案 ， 如 图 1.6 所 示 。 


生产 环境 过 渡 环 境 测试 环境 开发 环境 


图 1.6 SAS Viya 的 开发 环境 、 测 试 环境 、 过 渡 环 境 和 生产 环境 
2.SMP CAS 服 务 器 在 专门 机 器 上 的 部 署 


如 图 1.7 所 示 ，CAS 服 务 器 和 SAS Viya 应 用 分 别 部 署 在 不 同 的 机 器 上 ， 并 且 CAS 服 务 器 为 单机 模式 。 这 里 为 达到 简化 的 目的 ， 将 CAS 服 务 器 表示 为 CAS 控 制 器 。 相 较 于 将 所 有 SAS Viya 软 件 部 署 在 同一 台 
机 器 上 ， 将 CAS 服 务 器 部 署 到 单独 的 机 器 上 会 提供 更 好 的 分 析 处 理性 能 。 


CAS 控制 需 SAS Viya 应 用 


图 1.7 SAS Viya 的 多 机 部 署 -SMP CAS 


3.MPP CAS 服 务 器 部 署 


为 了 提供 更 好 的 分 析 处 理性 能 ， 可 选择 MPP CAS 服 务 器 。 图 1.8 给 出 了 具有 MPP 模 式 CAS 的 SAS Viya 平 台 。 该 例子 中 的 CAs 服 务 器 共有 4 台 ， 一 台 为 CAS 控 制 器 ， 其 余 三 台 为 CAs 工 作 节点 。 企 业 或 组 织 
可 将 MPP CAS 部 署 在 任意 多 台 机 器 组 成 的 集群 上 。 


CAS 控制 各 CAS Worker CAS Worker CAS Worker SAS Viya 应 用 


图 1.8 SMP 模式 的 CAS 服 务 器 


1.1.3 ”基于 SAS Viya 的 产品 


当前 ，SAS 发 布 的 基于 SAS Viya 3.1 平 台 的 产品 和 解决 方案 包括 SAS 可 视 化 数据 挖掘 与 机 器 学 习 、SAS 可 视 化 调查 和 SAS 事 件 流 处 理 产品 。 本 节 仅 对 它们 进行 简单 的 介绍 。 毫 无 疑问 ，SAS 会 陆续 推出 基 
于 SAS Viya 平 台 的 更 多 产品 和 解决 方案 。 


1.SAs 可 视 化 数据 挖掘 与 机 器 学 习 


SAS 可 视 化 数据 挖掘 与 机 器 学 习 (SAS Visual Data Mining and Machine Learning) 是 基于 SAS Viya 平 台 的 新 产品 。 该 产品 在 统一 、 可 扩展 的 内 存 处 理 环境 中 提供 了 所 有 数据 加 工 、 数 据 探索 、 可 视 
化 、 现 代 统 计 、 特 征 设计 和 现代 统计 、 数 据 挖掘 与 机 器 学 习 的 技术 和 功能 。 它 还 提供 了 新 的 机 器 学 习 算法 ， 例 如 梯度 提升 和 因子 分 解 机 算法 。 此 外 还 能 对 所 选择 的 机 器 学 习 模型 进行 自动 智能 调 优 ， 以 快速 
而 轻松 地 识别 最 大 模型 精度 的 最 优 参数 设置 。 


2.SAS 可 视 化 调查 


SAS 可 视 化 调查 (SAS Visual Investigator) 是 基于 SAS Viya 平 台 的 调查 和 分 析 的 解决 方案 ， 使 组 织 能 够 管理 端 到 端的 警报 分 类 和 详细 的 、 有 针对 性 的 调查 过 程 。 该 解决 方案 用 于 监测 、 调 查 和 响应 启 
动 及 其 他 可 疑 行为 并 进行 调查 。 


3.SAS 事 件 流 处 理 


SAS 事 件 流 处 理 (SAS Event Stream Processing) 4.1 兼 容 SAS Viya 部 署 架 构 。SAS 事 件 流 处 理 使 得 开发 人 员 能 够 创建 应 用 程序 ， 快 速 地 处 理 和 分 析 大 量 的 持续 流 事件 ， 利 用 事件 流 处 理 引擎 对 连续 的 
件 流 数据 执行 实时 分 析 。 


1.2 CAS 的 数据 访问 


在 介绍 平台 的 数据 访问 之 前 ， 本 节 将 先 介绍 CAS 会 话 及 其 相关 概念 。CAS 会 话 (CAS Session) 是 根据 SAS 客 户 端 的 请 求 在 CAS 服 务 器 上 建立 的 一 个 子 环境 。 在 这 个 子 环境 内 ，SAS 客 户 端 与 CAS 服 务 器 
进行 通信 、 向 CAS 服 务 器 提交 服务 请 求 ， 提 交 的 服务 请 求 也 在 这 个 子 环境 内 执行 。 


一 个 或 多 个 SAS 客 户 端 可 以 连接 到 同一 个 CAS 会 话 。CAS 会 话 将 提供 相对 独立 的 子 环境 ， 所 以 当 一 个 CAS 会 话 出 现 问 题 时 ， 是 不 会 影响 到 其 他 用 户 的 CAS 会 话 的 。 针 对 各 个 CAS 会 话 ， 可 以 定义 仅仅 在 本 
会 话 范 围 内 有 效 的 资源 ， 例 如 数据 表 等 。 


回顾 一 下 图 1.3， 在 第 2 步 和 第 3 步 中 ，SAS Workspace Server 进 程 是 该 用 户 该 次 连接 的 SAS 客 户 端 。SAS 客 户 端 需要 通过 CAS 会 话 才 可 以 与 CAS 通 信 并 请 求 数据 分 析 和 处 理 操作 。 图 1.3 的 第 4 步 可 进行 如 


1) 用 户 提交 代码 在 SAS 客 户 端 执行 ， 以 请 求 创建 并 连接 创建 的 CAS 会 话 。 


N 


) CAS 首 先 对 用 户 的 登录 身份 进行 认证 。 


3) 认证 成 功 之 后 ， 开 始 启动 CAS 会 话 进程 。 在 CAS 控 制 器 节点 上 启动 的 CAS 会 话 进程 为 CAS 会 话 控制 进程 ， 称 为 会 话 控制 器 ， 在 CAS 工 作 节点 上 启动 的 会 话 进程 称 为 会 话 Worker。 


如 果 CAS 部 署 SMP 架 构 ， 则 会 在 CAS 控 制 器 节点 上 ， 也 就 是 唯一 的 CAS 服 务 器 节点 上 启动 CAS 会 话 控制 进程 。 


如 果 CAS 部 署 为 MPP 架 构 ， 则 CAS 服 务 器 要 在 CAS 控 制 器 节点 上 启动 CAS 会 话 控制 进程 ， 并 且 CAS 服 务 器 会 向 集群 中 的 每 个 工作 节点 发 送 消息 以 启动 CAS 会 话 进 程 ， 即 CAS 会 话 Worker。 


4) SAS 客 户 端 与 CAS 控 制 器 上 运行 的 会 话 控制 器 (Session Controller) 进行 交互 。 


加 


1.10 阐 释 了 SMP 和 MPP CAS 中 的 CAS 会 话 及 SAS 客 户 端 与 CAS 会 话 的 交互 。 
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1.10 MPP CAS 的 会 话 
在 介绍 了 CAS 客 户 端 、CAS 服 务 器 、CAS 会 话 及 CAS 会 话 控制 器 和 会 话 Worker 的 概念 及 它们 之 间 的 交互 机 制 后 ， 我 们 再 来 看 看 在 SAS Viya 平 台中 是 如 何 访问 数据 的 。 
SAS Viya 平 台中 访问 数据 主要 有 如 下 三 种 方式 。 
:SAS 客 户 端 访问 数据 。 
“ 服务 器 串 行 访问 数据 。 
“ 服务 器 并 行 访问 数据 。 


对 于 SMP CAs， 数 据 访问 的 方式 只 有 前 面 两 种 。 下 面 再 以 MPP CAS 为 例 对 这 三 种 方式 一 一 进行 介绍 。 


1.2.1 ”客户 端 访问 数据 


图 1.11 展 示 了 从 客户 端 访问 数据 ， 并 在 CAS 服 务 器 中 进行 分 析 的 过 程 。 


网 络 通信 
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Worker 


会 话 Worker 
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CAS 服务 需 
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会 话 Worker 
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图 1.11 客户 端的 数据 加 载 


数据 访问 的 过 程 分 为 如 下 两 步 来 完成 。 


1) 客户 端 读 取 数据 文件 ， 并 向 CAs 控 制 器 的 会 话 控 制 器 串 行 传输 数据 。 


这 是 非常 直接 的 将 数据 加 载 到 CAS 服 务 器 的 方法 。 当 数据 量 较 大 时 ， 加 载 时 间 可 能 会 较 长 。 


1.2.2 ”服务 器 申 行 访问 数据 


CAS 的 关键 特性 是 可 以 在 CAS 逻 辑 库 与 数据 源 系统 之 间 建 立 关 联 。 与 文件 系统 路 径 相 关联 的 CAS 钦 辑 库 和 与 数据 源 服务 器 相关 联 的 CAS 逻 辑 库 支持 从 服务 器 端 直 接 加 载 数 3 1.12 给 出 了 服务 器 串 行 


访问 数据 的 示意 图 。 


Ml 
IR] 


当 仅 能 通过 控制 器 节点 来 访问 数据 时 ， 数 据 只 能 进行 串 行 访问 ， 过 程 如 下 。 
1) 控制 器 从 CAs 逻 辑 库 的 数据 中 串 行 读 取 数 据 文 件 。 


2) 将 数据 以 轮 询 的 方式 按 行 分 发 到 会 话 Worker。 
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图 1.12 服务 器 的 数据 串 行 加 载 


1.2.3 ”服务 器 并 行 访问 分 布 式 数据 源 


服务 器 并 行 访问 分 布 式 数据 源 适 用 于 对 所 有 工作 节点 均 可 访问 的 CAs 罗 辑 库 。 若 数据 源 是 基于 文件 系统 路 径 的 数据 源 ， 包 括 分 布 式 NFS (Distributed NFS, DNFS) 和 Hadoop 分 布 式 文件 系统 
(Hadoop Distributed File System, HDFS) ， 或 者 具有 对 应 SAS 数 据 连 接 加 速 器 产品 和 支持 SAS Embedded Process 数 据 源 (参考 表 1.1) ， 则 可 利用 并 行 访问 数据 的 方式 。 并 行 加 载 分 布 式 数据 源 的 优 
势 在 于 可 以 快速 加 载 大 数据 。 数 据 存储 在 HDFS ( 非 Hive) 的 场景 将 在 1.2.4 节 中 专门 讨论 。 


图 1.13 给 出 了 从 服务 器 并 行 加 载 数据 的 过 程 。CAs 工 作 节点 并 行 访问 分 布 式 数据 源 ， 数 据 从 分 布 式 数据 源 的 多 个 节点 通过 网 络 并 行 加 载 到 CAS Worker, 


网 络 通 信 
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图 1.13 ”服务 器 的 数据 并 行 加 载 


分 布 式 服务 器 具有 容错 的 能 力 ， 如 果 一 个 CAS 工 作 节 点 发 生 故 障 导致 失败 ， 那 么 其 他 工作 中 的 CAs 工 作 节 点 会 使 用 在 其 他 CAs 工 作 节点 上 的 数据 备份 完成 分 析 。 


1.2.4 ”服务 器 并 行 访问 HDFS 


CAS 服 务 器 可 并 行 访问 HDFS 中 的 数据 ， 这 也 是 服务 器 并 行 访问 分 布 式 数据 源 的 一 种 。CAS 服 务 器 部 署 在 Hadoop 集 群 之 上 ， 如 图 1.14 所 示 。CAS 控 制 器 与 Hadoop NameNode (图 1.14 中 将 其 表示 为 
HDFS NN) 共享 硬件 ，CAS Worker 与 HDFS DataNode (图 1.14 中 将 其 表示 为 HDFS DN) 共享 硬件 ，HDFS DataNode 与 CAS 工 作 节 点 一 一 对 应 。 


该 模式 要 求 数据 为 SASHDAT 格 式 ， 并 且 存 储 在 Hadoop 分 布 式 文件 系统 中 。SASHDAT 为 SAs 专 有 的 数据 格式 。 在 加 载 SASHDAT 格 式 的 数据 表 时 ， 存 储 在 各 个 节点 上 的 数据 块 将 直接 从 本 地 磁盘 加 载 到 
内 存 。 


网 络 通 信 


会 话 控 制 带 = 


图 1.14 CAS 访 问 HDFS 数 据 


1.3 “CAS 的 监控 和 管理 


SAS Viya 提 供 的 Web 应 用 CAS Server Monitor (CAS 服 务 器 监视 器 ) 可 供用 户 对 CAS 服 务 器 进行 监控 并 执行 管理 任务 。 登 录 CAS Server Monitor 后 的 页 面 示例 显示 如 图 1.15 所 示 。 


口 SAs(n Cloud Analytic Se x Wy 
€ CŒ | D ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


控制 程序 节点 运行 时 环境 用 户 会 话 全 局 CAS 逻辑 库 
控制 程序 : ssscrdlax06.unx.sas.com 


进程 信息 


进程 ID: 13374 进程 所 有 者 : 
客户 端 端 口 : 5570 控制 端口 : 
角色 : Controller 状态 : 

运行 时 间 : 769:15:04 空闲 时 间 : 


活动 会 话 : 0 会 话 创建 时 间 : 
上 次 会 话 创建 时 间 碎 弃 时 间 : 240ct2016:07:58:29 


用 户 CPU 时 间 : 147-884-32.430 线程 计数 : 
系统 CPU 时 间 : 29:177:58.869 最 大 线程 计数 : 
IO 计数 : 12768 


图 1.15 CAS Server Monitor 
:页面 左 侧 是 导航 面板 ， 包 括 系统 状态 、 配 置 和 资源 控制 。 


“ 右 侧 窗口 包括 主要 的 选项 卡 ， 选 项 卡 的 具体 内 容 会 根据 左 侧 导 航 条 目的 内 容 而 有 所 不 同 。 


1.3.1 系统 状态 


下 面 来 说 明 一 下 系统 状态 。 


“ 控制 程序 。 如 图 1.15 所 示 ， 控 制程 序 选项 卡 显示 CAS 控 制 器 的 进程 、 端 口 、I/O、 运 行 时 间 及 操作 系统 信息 。 


“ 节点 。 如 图 1.16 所 示 ， 节 点 选项 卡 列 出 了 CAS 服 务 器 的 所 有 节点 、 角 色 和 连接 状态 。 


口 SAS(r) Cloud Analytic Se x Wy 
¢ C D ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


全 局 CAS 逻辑 库 


| 是 除 节点 | | 添加 节点 | | 上 次 更 新 时 间 : 2016 年 10 月 25 日 02 时 43 分 31 种 QY 


已 连接 UUID 
ssscrdlax06 v EEB077EE-28E6-2847-B99F-6F388C9DC33F 


ssscrdlax07.unx.sas.com 16DED975-6FA2-DC40-B9A9-3EE0027427DA 


ssscrdlax08.unx.sas.com 3DED4E77-1C19-C142-8A68-B571380FF365 


图 1.16 CAS Server Monitor - 系统 状态 : 节点 


: 运行 时 环境 。 如 图 1.17 所 示 ， 可 在 运行 时 环境 下 拉 列 表 中 选择 CAS 服 务 器 中 的 任意 一 台 来 查看 其 启动 服务 命令 行 及 其 他 参数 信息 。 


D SAS(r) Cloud Analytic Se x Wy 


E © D ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


运行 时 环境 用 户 会 话 全 局 CAS 逻辑 库 
ssscrdiaxo6 = 上 次 更 新 时 间 : 20164 108258 0281433310 CF E 
ssscrdlax06 


命令 行 选 项 
Jopt/sas/viya/ho 


start ssscrdlax08.unx.sas.com 
-role control 


-permstore /opt/sas/viya/config/etc/cas/default/permstore 
-cfg /opt/sas/viya/config/etc/cas/default/casconfig.lua 
-launcher /opt/sas/viya/home/SASF oundation/utilities/bin/caslaunch 


环境 


名 称 值 
CAS_EXE JoptisasWiya/home/SASFoundation/utilities/bin/cas 
CAS_HOME JoptisasNviyahome/SASFoundation 


ssscrdlax07.unx.sas.com 


CAS_INSTALL /opt/sasNiyahome/SASFoundation 
CAS_LICENSE /optsasNiyahhome/SASFoundation/setinitsas 
CAS_MACHINES /opt/sasWiyahome/SASFoundation/./_./config/etc/cas/defaulticas.hosts 


etart -rnlo rmnntrnllar -normetnro innticachvivalennfin late ir acidafaiiltinarmetnra -rin 


图 1.17 CAS Server Monitor - 系统 状态 : 运行 时 环境 


: 用 户 会 话 。 显 示 当 前 CAS 中 所 有 用 户 的 会 话 信息 ， 包 括 UUID、 用 户 、 认 证 提供 方 、 名 称 、 状 态 等 。 还 可 以 通过 每 个 会 话 的 最 后 一 列 对 该 会 话 进行 管理 ， 如 图 1.18 中 的 浮动 菜单 所 示 。 


口 SAS(n Cloud Analytic Se x Wy 
f Œ D ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


系统 状态 系统 状态 


控制 程序 节点 运行 时 环境 用 户 会 话 全 局 CAS 逻辑 库 


上 次 更 新 时 间 : 2016 年 10 月 25 日 03 时 30 分 41 种 QY 


客户 
uuID 提供 程序 名 称 i 上 一 次 操作 -a 


1ca28b93-b2c3-e549-9be8- External MYSESS_1:Tue Oct 25 Comnaciad 
cfe7d64566d6 PAM 02:47:31 2016 


资源 监控 : 
93601792-1895-1346-a18b- External CASAUTO-Tue Oct 25 03:19:21 Brasi 在 资源 监控 器 中 打开 


Oaec12702cfa PAM 2016 connected 


9967¢214-83eb-bi4e-aaeb- External CASAUTO-Tue Oct 25 03:19:23 取消 操作 
6853f8a0d712 PAM 2016 See np 


7186f720-7a81-174b-855b- External MYSESS:Tue Oct 25 03:26:55 connected by 取消 会 话 
709931443aed PAM 2016 
终止 会 话 


图 1.18 CAS Server Monitor- 系统 状态 : 用 户 会 话 


“ 全 局 CAS 远 辑 库 。 显 示 、 添 加 、 删 除 全 局 CAS 逻 辑 库 ， 并 对 每 个 逻辑 库 进 行 访问 控制 ， 如 图 1.19 所 示 。 


口 SAS(n Cloud Analytic Se x Wo} 
g= CO ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


控制 程序 点 运行 时 环境 _ 用户 会 话 


Name Path 
DEMOCAS Ainstall/cigas1/democas/ 
Formats CAS Formats caslib JoptsasWiya/config/data/casMefaultformats/ 
grhodg Spreadsheets and CSVs that VA was required to import successfully. Anstall/cfgsas1/scntaz/ 编辑 访问 控制 
MYCASLIB Ainstall/cfgsas1/caslib/ 

删除 CAS 逻辑 库 
Public CAS Public caslib Jopt/sas/viya/config/data/cas/default/pul 


TESTCAS Ainstall/cfgsas1festcas/ 


图 1.19 CAS Server Monitor - 系统 状态 : BA AVCAS HB FH LE 


13.2 配置 


配置 可 提供 CAS 配 置 、 管 理 、 访 问 控制 和 日 志 记录 等 信息 。 


“CAS 配置 。 如 图 1.20 所 示 ， 给 出 CAS 服 务 器 的 配置 信息 ， 包 括 配 置 文件 、 进 程 号 、 可 执行 文件 、JRE 选 项 等 。 


[D SAS(nD Cloud Analytic $ 
E C ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


配置 


CASARE 管理 员 访问 控制 日 志 记 录 
executable JopttsasWviya/nome/SASFoundation/utilities/bin/cas 


FORMATS 

5580 最 小 值 =0 最 大 值 =65535 
Juser%USER aes 
8777 最 小 值 =0 最 大 值 =65535 


8778 最 小 值 =0 最 大 值 =65535 


(-Xms256m -Xmx1024m -Diog4j.configuration=/opt/sasWviyahome/SASFoundation/miscikjava/sas.log4j properties -Dfile.encoding=UTF-8 - 
Djava.class.path=/opt/sas/viya/home/SASFoundationiib/base/base-tkjni jar) 


图 1.20 CAS Server Monitor - 配置 CAS 配 置 


“ 管理 员 。 如 图 1.21 所 示 ， 可 查看 、 添 加 CAS 服 务 器 的 服务 器 管理 员 / 数 据 管理 员 的 用 户 和 组 ， 修 改 或 删除 指定 的 用 户 和 组 。 


口 SAS(n Cloud Analytic Se x Wy 
e C D ssscrdlax06:8777/tkcas/tkcas.dsp w| = 


SAS® Cloud Analytic Services @ cas- 


配置 


CAS 配置 “管理 员 访问 控制 日 志 记录 


| “上 次 更 新 时 间 : 2016 108258 034439444 QF 


名 称 用 户 类 型 数据 管理 员 CAS 管理 员 
sas.deploymentBackup 用 户 v : 
cas 进程 所 有 者 v 
SASAdministrators 组 v ; 
cfasas1 用 户 v : 
sasdata 用 户 v : 


图 1.21 CAS Server Monitor- 配置 : 管理 员 


“ 访问 控制 。 查 看 并 管理 各 用 户 对 CAS 逻 辑 库 的 权限 ， 以 及 会 话 CAS 逻 辑 库 和 全 局 CAS 逻 辑 库 的 创建 权限 的 访问 控制 。 图 1.22 给 出 了 CAS 训 辑 库 MYCASLIB 的 访问 控制 信息 。 


D SAs(n Cloud Analytic Se x WY 
© D ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


配置 


_ CAS 配 置 EBR 访问 控制 BEER O OOOO 


CAS 逻辑 库 上 次 更 新 时 间 : 2016109 258 02844353324) QS 
DEMOCAS “MYCASLIB" 的 访问 控制 - a 


/install/cfgasi/democas/ cfgsas1 


Formats = 
Jopt/sasNiya/configidata/casidefaultformats | 应 用 于 活动 


grhodg Read Info 


finstall/cfigsas1/scntaz/ 
Select 


Insert 


Public 
lopt/sasviya/config/data/cas/default/public vous 
TESTCAS Delete 
Ainstall/cigsas1festcas/ 


Create Table 
会 话 CAS 逻辑 库 创 建 


全 局 CAS BREAN ee 


Alter Tahle 


图 1.22 CAS Server Monitor - 配置 : 访问 控制 


“日志 记录 。 查 看 CAS 服 务 器 日 志 的 配置 信息 ， 如 图 1.23 所 示 。 


口 SAs(n Cloud Analytic Se x Wo 
f © D ssscrdlax06:8777/tkcas/tkcas.dsp 


SAS® Cloud Analytic Services 


配置 


CAS 配置 BHR 访问 控制 日 志 记录 


全 


AEH: /opt/sas/viya/nome/SASF oundation/../../config/etc/cas/default/logconfig.xml 上 次 更 新 时 间 : 2016 年 10 月 25 日 02 时 43 分 32 种 QF 


日 志 记 录 器 


名 称 日 志和 输出 目的 地 

根 日 志 记录 器 Time! RollingFile 
Admin UnixSysL 

App 

App.cas 

App.cas.actions 

App.cas.actions.table 

App.cas.actions.table.addCaslib 


App.cas.actions.table.addTable 


Aop.cas.actions.table.columninfo 


图 1.23 CAS Server Monitor - 配置 : 日 志 记 录 


1.3.3 ”资源 监控 


资源 监控 提供 了 下 拉 列 表 以 添加 CAS 服 务 器 各 节点 的 硬件 和 CAS 进 程 所 使 用 的 资源 图 。 添 加 了 主机 CPU 使 用 、CAS 进 程 CPU 及 会 话 视图 后 的 示例 如 图 1.24 所 示 。 
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进程 CPU 使 用 情况 


ssscrdlax06 13374 : ssscrdlax07.unx.sascom8651 : ssscrdlax08.unx.sas.com 19367 : 
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图 1.24 CAS Server Monitor - 资源 监控 


1.4 CAS 的 安全 性 


SAS Viya 平 台 提供 了 包括 认证 、 授 权 、 加 密 、 审 计 等 安全 性 功能 。 该 分 析 平 台 可 通过 PAM 认 证 和 Authinfo 文 件 的 机 制 ， 与 主机 环境 或 第 三 方 认证 提供 方 实现 用 户 登录 SAS Viya 平 台 的 集成 认证 ， 也 可 
与 数据 库 系统 的 用 户 管理 功能 协作 提供 集成 的 安全 性 身份 认证 和 数据 访问 。SAS Viya 的 认证 和 授权 可 通过 CAS Server Monitor 或 调用 有 关 的 访问 控制 ACTION 集 来 完成 。 关 于 ACTION 的 概念 8.3.6 节 将 有 详 


细 介 绍 。 


1.4.1 CAS 中 的 身份 和 角色 


1. 身 份 管理 


户 和 组 的 身份 由 企业 或 组 织 的 认证 提供 方 来 存储 和 管理 。 对 认证 提供 方 的 只 读 访 问 就 可 以 为 SAAS 提 供认 证 并 获取 身份 信息 。SAS Viya 中 的 身份 管理 主要 包括 如 下 两 个 方 | 


E 


+ 建立 并 维护 SAS Viya 和 认证 提供 方 之 间 的 连接 性 。 
+ 管理 自 定 义 组 和 CAS 角 色 之 间 的 成 员 关 系 。 
2.CAS 的 管理 员 角 色 


CAS 的 管理 员 角色 有 CAS 管 理 员 和 数据 管理 员 两 种 类 型 。 


(1) CAS 管 理 员 


CAS 管 理 员 拥有 对 CAS 的 不 受 限 制 的 访问 权限 。 单 纯 的 CAS 管 理 员 可 执行 如 下 操作 : 启动 CAS 服 务 器 、 添 加 和 删除 CAS 节 点 、 管 理 角色 成 员 关 系 、 设 置 和 管理 路 径 列表 。 启 动 CAS 服 务 器 的 账号 自动 分 配 
为 该 服务 器 的 CAS 管 理 员 角色 。 


(2) 数据 管理 员 


拥有 对 当前 CASs 服 务 器 中 CAs 逻 辑 库 、 表 、 列 的 不 受 限制 的 访问 权限 。 当 用 户 需要 对 数据 进行 不 受 限 访问 且 不 执行 


他 管理 任务 时 ， 为 该 用 户 指定 本 角色 。 


到 1.21 就 是 在 CAS Server Monitor 中 管理 CAS 服 务 器 角色 的 页 面 示例 。 


1.4.2 认证 


认证 是 验证 正 要 登录 SAS Viya 的 用 户 身份 的 过 程 。 认 证 用 于 控制 对 CAS 服 务 器 及 其 资源 的 访问 。 在 CAS 会 话 创建 之 前 ， 用 户 的 身份 必须 认证 成 功 。 


1.CAS 的 认证 方法 


CAS 中 支持 PAM 认 证 和 Authinfo 文 件 认证 方法 。 


(1) PAM 认 证 


PAM (Pluggable Authentication Modules) 是 扩展 了 UNIX 主 机 认证 的 工业 标准 技术 ， 可 识别 其 他 认证 提供 方 ， 其 使 用 模块 或 Lib 库 来 访问 多 种 认证 方法 。CAS 服 务 器 和 SAS Studio 都 安装 了 PAM 。 
SAS Viya 中 支持 主机 认证 (属于 PAM 认 证 ) 。 


(2) Authinfo 认 证 


Authinfo 文 件 位 于 用 户 的 $HOME/.authinfo 文 件 中 。 若 Authinfo 文 件 中 包含 主机 、 端 口 、 用 户 名 和 密码 等 信息 ， 那 么 这 些 信息 会 用 于 连接 CAS。 使 用 命令 行 方式 提交 SAS 程 序 以 批 处 理 模式 运行 或 执行 
服务 器 管理 时 ， 需 要 Authinfo 认 证 。 


2.SAS Viya 平 台 认 证 场景 


{ESAS Viya 中 ， 使 用 SAS Viya 的 用 户 其 身份 认证 分 为 认证 到 SAS Viya、 认 证 到 数据 库 及 外 部 SAS 9 系统 。 


(1) SAS Viya 内 的 认证 

< 当 用 户 访问 SAS Studio 时 ， 需 要 输入 用 户 ID 和 密码 。 该 凭证 也 会 用 于 CAS 认 证 。 

-© CAS Server Monitor 登 录 SAS 服 务 器 监视 器 时 需要 用 户 ID 和 密码 。 

+ 当 以 批 处 理 方式 运行 SAS Viya 时 ，Authinfo 文 件 中 的 信息 用 于 CAS 认 证 。 

“ 当 用 户 在 SAS Viya 中 使 用 SAS Studio 并 启动 SAS Viya 内 的 SAS/CONNECT 服 务 器 会 话 时 ， 任 证 会 通过 SAS Viya 传 送 给 SAS/CONNECT 服 务 器 。 


(2) 数据 库 凭证 认证 


户 名 密码 认证 用 于 数据 库 ， 例 如 Oracle、ODBC 的 访问 。 当 访问 Hive 时 ， 通 常 使 用 Kerberos 认 证 机 制 。 


(3) 外 部 SAS 9 系统 与 CAS 认 证 


外 部 SAS 9 系统 可 通过 SAS/CONNECT 与 SAS Viya 集 成 。 当 用 户 使 用 外 部 SAS 9 系统 ， 并 通过 SAS 9 系统 的 SAS/CONNECT Spawner 连 接 到 SAS Viya 的 CAS 时 ， 先 连接 到 SAS Viya 的 SAS/CONNECT 服 
务 器 ，SAS/CONNECT Spawner 将 凭证 传 给 SAS Viya 的 SAS/CONNECT 服 务 器 ,该 凭证 用 于 连接 到 CAS。 


14.3 授权 


授权 是 确定 哪些 用 户 可 以 使 用 哪些 资源 的 过 程 。CAs 授 权 管 理 的 对 象 为 CAS 逻 辑 库 、CAS 表 和 列 ， 以 及 CAS ACTION 集 和 ACTION。 实 施 访问 控制 的 主体 包括 用 户 、 用 户 组 和 认证 用 户 (Authenticated 
Users) 。 认 证 用 户 表示 所 有 授权 了 的 用 户 ， 不 属于 组 。SAS Viya 还 为 CAs 表 提供 行 级 访问 控制 ， 并 通过 过 滤器 来 实现 。 在 SAS Viya 中 ， 授 权 对 象 之 间 具 有 继承 关系 ， 例 如 CAS 逻 辑 库 中 的 表 会 继承 CAs 逻 辑 
库 的 访问 权限 ， 表 的 列 会 继承 表 的 访问 权限 ， 而 CAS ACTION 会 继承 ACTION 集 的 访问 权限 。 


1.CAS 逻 辑 库 、 表 、 列 的 访问 


CAS 逻 辑 库 是 CAs 用 来 存放 数据 表 、 数 据 表 的 访问 控制 信息 和 该 数据 表 对 应 数据 源 信息 的 内 存 空间 。CAs 逻 辑 库 提供 内 存 表 的 访问 ，CAs 中 使 用 数据 的 所 有 操作 都 通过 CAS 逻 辑 库 来 执行 。CAs 中 数据 的 


访问 控制 可 以 在 CAs 逻 辑 库 级 别 ， 逻 辑 库 中 的 表 级 别 ， 以 及 表 的 列 级 别 来 实现 。 


表 1.2 给 出 了 CAS 逻 辑 库 、 表 和 列 的 访问 控制 权限 及 其 说 明 。SAS Viya 中 提供 的 对 CAS 逻 辑 库 的 访问 控制 包括 设置 访问 控制 、 查 看 、 提 升 表 为 全 局 可 用 表 、 更 改 属性 等 权限 。 对 表 的 访问 控制 还 包括 删除 
物理 源 表 、 删 除 、 读 取 、 插 入 、 插 入 /删除 行 等 权限 。 而 对 列 的 访问 控制 主要 包括 设置 访问 控制 、 查 看 信息 、 读 取 列 数据 值 等 权限 。 
表 1.2 CASPER. KFAR 
权限 到 描述 
Manage Access 设置 访问 控制 
Read In ERNAI 
Limited Promote vv 从 相同 CAS ZHE He Ft 
Promote Pov | | | 从 任何 CAS 逻 辑 库 中 提升 
Delete Source | | ov |oo | mna 
Doptable [| v | | mo 
Select | vy | v | 读 取 数据 什 
Alter CASLib | vv | |) | 更 改 CAS 多 辑 库 的 属性 
Alter Table | ”| “vv | | 更 改 表 的 属性 和 结构 
inset Vv | Ta 
Delete VvV | ë 
Update | VYV | | 改变 效 据 值 


对 CAs 逻 辑 库 和 表 的 访问 控制 可 在 CAs Server Monitor 中 实现 ， 具 体 步骤 如 下 。 


步骤 1， 在 配置 页 面 选择 访问 控制 ， 页 面 左 侧 选择 需要 管理 的 CAS 逻 辑 库 ， 右 边 则 显示 了 当前 对 该 CAs 逻 辑 库 及 其 中 表 的 访问 控制 ， 如 图 
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1.25 所 示 。 
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1.25 CAS 逻 辑 库 的 访问 控制 


步骤 2， 点 击 右 侧 窗口 的 编辑 按钮 ， 可 以 更 改 其 访问 控制 ， 如 图 1.26 所 示 。 
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图 1.26 更改 CAS 逻 辑 库 的 访问 控制 


CAS Server Monitor 图 形 化 界面 不 支持 对 列 访问 控制 的 配置 ， 只 能 通过 调用 访问 控制 ACTION 集 来 实现 。 


2. 访 问 控制 的 优先 顺序 


CAs 授 权 系统 中 ， 用 户 对 对 象 操作 权限 的 优先 顺序 原则 具体 如 下 。 


“ 直接 在 对 象 上 设置 的 访问 控制 比 该 对 象 继承 的 访问 控制 具有 更 高 的 优先 顺序 。 
: 例如 ，TableA 在 CAS 逻 辑 库 CaslibA 中 ，UsetA 对 TableA 的 ReadInfo 的 直接 权限 为 Deny， 而 UserA 对 CaslibA 的 ReadInfo 的 直接 权限 为 Grant， 则 UserA 对 TableA 的 ReadInfo 权 限 为 Deny。 


“ 同一 对 象 ， 主 体 的 访问 控制 其 优先 顺序 从 高 到 低 具 体 如 下 : 用 户 、 用 户 所 在 组 、 认 证 用 户 。 为 用 户 直 接 授予 的 权限 优先 级 高 于 用 户 所 在 组 ， 为 用 户 所 在 组 授予 的 访问 权限 高 于 认证 用 户 。 例 如 ，UserA 
对 CaslibA 的 ReadInfo 的 直接 访问 控制 为 Grant， 而 UserA 所 在 的 组 GroupA 对 CaslibA 的 ReadInfo 的 直接 访问 控制 为 Deny， 则 UserA 对 CaslibA 的 ReadInfo 权 限 为 Grant。 


:为 用 户 所 属 组 设置 的 访问 控制 权限 具有 相同 的 优先 级 ， 无 论 这 些 组 是 否 具有 讷 套 关 系 ， 且 访问 控制 设置 Grant 比 Deny 具 有 更 高 的 优先 级 。 


“ 例如， 当 用 户 UserA 的 直接 所 属 组 有 两 个 GroupA 和 GroupB ，GroupA 的 直接 所 属 组 为 GroupC。 这 种 情况 下 ， 虽 然 GroupC 不 是 UserA 的 直接 所 属 组 ， 但 GroupA、GroupB、GroupC 对 “UserA 对 CaslibA 的 访 
问 控制 权限 ”的 影响 相同 。 只 要 三 个 组 中 任何 一 个 组 对 CaslibA 的 ReadInfo 权 限 为 Grant， 则 该 用 户 对 TableA 的 ReadInfo 权 限 为 Grant。 


3. 表 的 行 级 访问 
SAS Viya 中 支持 CAS 表 的 行 级 访问 ，CAS Server Monitor 不 支持 对 行 级 访问 控制 的 配置 ， 只 能 通过 调用 相应 的 ACTION 实 现 访问 对 行 级 的 访问 控制 。 


行 级 授予 (Grant) 包括 一 个 过 滤器 用 于 限制 表 的 选择 权限 。 被 授予 表 的 行 级 访问 权限 的 用 户 可 查看 所 附加 过 滤器 所 限定 的 行 。 过 滤器 的 例子 如 Toy_Price=25。 


行 级 访问 权限 还 可 通过 基于 身份 的 替换 (ldentity-based Substitution) 来 实现 。 基 于 身份 的 替换 是 定义 行 级 访问 权限 的 强大 而 精确 的 技术 。 可 使 用 替换 来 利用 单个 行 级 过 滤器 实现 任意 个 按 用 户 定义 
的 访问 控制 。 基 于 身份 的 替换 参数 会 将 用 户 认证 的 1D 或 组 成 员 关系 映射 到 数据 中 指定 列 的 值 。 运 行 时 值 会 随 着 每 个 请 求 的 用 户 动态 蔡 换 到 过 滤器 中 。 用 户 1D 的 蔡 换 示例 如 : 


empID='SUB::SAS.Userid', FacilityRegion In ('SUB::SAS.IdentityGroups') 


其 中 的 说 明 如 下 。 


* empID='SUB: : SAS.Userid' 


请 求 时 ， 用 户 ID 将 替换 表达 式 的 右边 ， 在 UserA 的 请 求 中 ， 表 达 式 解析 为 emplD='UserA'， 表 中 列 emplD 的 值 为 UserA 的 行 会 作为 结果 返回 。 


+ FacilityRegion In (SUB: : SAS.IdentityGroups') 


请 求 时 ， 所 有 该 用 户 ID 的 组 成 员 将 蔡 换 表达 式 的 右 侧 。UserA (为 group1、group2 和 AllRegions 组 成 员 ) 的 请 求 中 ， 表 达 式 解析 为 FacilityRegion In (‘group1', ‘group2', ‘AllRegions') 。 表 中 列 
FacilityRegion 的 值 为 9roup1、group2， 或 AllRegions 的 行 会 作为 结果 返回 。 


用 户 的 行 级 过 滤器 也 遵循 CAs 系 统 的 访问 控制 优先 顺序 ， 只 有 最 高 优先 顺序 的 过 滤器 可 提供 访问 权限 的 定义 。 


如 果 用 户 是 多 个 组 的 成 员 ， 当 用 户 和 用 户 所 属 的 任何 组 都 没有 直接 授予 或 拒绝 Select 权 限时 ， 用 户 可 以 访问 这 些 组 的 任何 过 滤器 所 符合 的 行 ， 这 称 为 累加 访问 。 用 户 所 属 的 所 有 组 具有 同等 的 优先 级 ， 
无 论 任何 谋 套 成 员 关 系 。 而 为 认证 用 户 指定 的 行 级 授予 过 滤器 不 会 进行 累加 ， 且 认证 用 户 比 组 拥有 较 低 的 优先 顺序 。 


4.ACTION 的 访问 


几乎 所 有 的 ACTION 集 和 ACTION 都 对 所 有 用 户 可 用 。 通 常 可 通过 对 目标 数 寺 
添加 节点 和 停止 服务 器 的 ACTION 例 外 。 在 进行 初始 配置 时 ， 应 拒绝 认 订 


144 加 密 


当 CAS 表 存储 到 磁盘 时 ， 默 认 使 用 的 是 SASHDAT 文 件 格式 。CAS 支 持 对 SASHDAT 文 件 格式 进行 加 密 ， 加 密 可 按 文件 或 将 CAS 逻 辑 库 中 的 所 有 SASHDAT 文 件 进行 加 密 。 


对 于 数据 传输 过 程 中 的 加 密 ，SAS Viya 提 供 了 以 下 协议 。 


- 在 Web 浏 览 器 和 SAS Studio= ia] t HTTPS. 


+ Web 浏览 器 和 CAS 服 务 器 监控 器 之 间 的 HTTPS。 


- SAS Studio 中 的 SAS Workspace Server 和 CAS 控 制 器 之 间 的 TLS。 


“ 对 于 分 布 式 CAS 服 务 器 ， 也 可 以 配置 机 器 之 间 的 TLS 加 密 内 部 节点 通信 。 


14.5 item 


居 的 访问 控制 来 进行 定义 ， 以 实现 让 不 同 用 户 拥 有 管理 执行 特定 任务 的 权限 ， 而 不 是 通过 对 ACTION 的 访问 控制 来 进行 管理 。 
E 用 户 (Authenticated Users) 拥有 这 些 ACTION 的 执行 权限 ， 仅 使 CAS 管 理 员 可 运行 这 些 ACTION 来 添加 节点 或 停止 服务 器 。 


SAS Viya 平 台 的 每 一 类 型 服务 器 都 有 一 个 日 志 配 置 文件 ， 可 定义 该 服务 器 的 日 志文 件 位 置 、 内 容 及 格式 。 在 初始 部 署 SAS Viya 时 ，SAs 提 供 了 这 些 服务 器 的 默认 日 志 配置 文件 ， 需 要 时 可 通过 修改 这 些 


文件 来 调整 日 志 配置 。 
SAS Viya 中 的 服务 器 包括 如 下 几 类 。 
.CAS 服 务 器 
“ 嵌入 式 Web 应 用 服务 器 
< SAS Workspace Server 
< SAS Object Spawner 


' SAS/CONNECT Server 


CAS 服 务 器 配置 文件 可 在 CAS Server Monitor 中 通过 配置 页 面 的 日 志 记录 选项 卡 来 查看 ， 具 体 可 参考 图 1.23。 


1.5 ” CAS 数据 容错 


其 他 服务 器 的 日 志 配 置 文件 和 所 有 日 志文 件 均 可 以 直接 从 服务 器 的 操作 系统 目录 中 进行 查看 。 


CAS 数 据 容错 功能 仅 适 用 于 MPP CAS 服 务 器 。 为 了 提供 容错 功能 ， 当 数据 加 载 到 内 存 中 时 ， 服 务 器 将 执行 下 面 的 步骤 。 


1) 当 表 是 从 HDFS 中 的 SASHDAT 文 件 加 载 时 ， 
块 中 访问 数据 。 


由 于 SASHDAT 文 件 在 存 入 HDFS 时 就 已 经 创建 了 匈 余 块 ， 数 据 容错 将 通过 这 些 匈 余 块 来 提供 ， 所 以 当 节 点 失败 发 生 时 ， 其 他 的 正常 节点 就 会 直接 从 匈 余 


2) 当 表 是 从 源 类 型 为 分 布 式 网 络 文 件 系 统 (DNFS) 或 操作 系统 的 文件 路 径 (PATH) 的 CAS 逻 辑 库 中 的 SASHDAT 文 件 加 载 时 ， 宛 余 块 不 会 预先 加 载 到 内 存 。 当 节点 失败 发 生 时 ， 其 他 的 正常 节点 将 会 


访问 并 加 载 失 败 节点 所 用 到 的 数据 源 文件 。 


3) 对 于 所 有 其 他 文件 和 源 数 据 类 型 ， 当 加 载 文 件 到 内 存 时 ， 可 指定 要 创建 的 宛 余 块 的 数目 。 当 发 生 节点 失败 时 ， 其 他 的 正常 节点 将 从 元 余 块 中 访问 数据 。 


1.6 ”本章 小 结 


本 章 主要 介绍 了 SAS Viya 架 构 的 相关 内 容 ， 包 括 其 主要 组 成 和 各 组 成 部 分 的 交互 、 部 署 场景 、 数 据 流 等 。 此 外 ， 还 介绍 了 CAS 服 务 器 的 监控 和 管理 、 安 全 性 管理 和 数据 容错 能 


家 应 该 对 SAS Viya 平 台 有 了 一 个 系统 全 面 的 了 解 ， 这 也 是 充分 、 深 入 理解 本 书后 续 内 容 的 基础 。 


第 1 章 介 绍 了 SAS Viya 架 构 中 的 两 个 重要 组 成 部 分 : SAS 客 户 端 和 CAS。SAS 代 码 可 能 在 SAS 客 户 端 会 话 中 执行 ， 也 可 能 通过 SAS 客 户 端 会 话 提交 到 


第 2 章 SAS Viya 应 用 开发 概览 


疑问 ， 原 来 的 SAs 代 码 是 否 仍然 可 以 在 SAS Viya 中 运行 ? SAs Viya 提 供 了 哪些 新 的 代码 开发 功能 ”这 些 代 码 又 会 在 何 处 被 如 何 执行 呢 ? 本 章 将 逐一 解答 这 些 问题 。 


力 。 通 过 本 章 的 学 


MM 
> 


CAS 会 话 中 执行 。 而 熟悉 SAS 智 能 平台 的 读者 可 能 会 有 


此 外 ， 本 章 还 会 介绍 开发 SAS Viya 应 用 时 ， 开 发 人 员 需 要 了 解 的 基本 概念 和 内 容 。 其 中 包括 SAS 程 序 的 基本 组 成 ， 如 何 提交 SAS 代 码 并 查看 日 志和 结果 ， 在 SAS Viya 中 进行 数 
法 ，ACTION 的 概念 ， 影 响 代 码 执行 和 结果 的 各 种 SAS 选 项 ， 以 及 SAS Viya 的 编码 等 内 容 。 其 中 的 部 分 内 容 因 为 同时 涉及 SAS 客 户 端 会 话 和 和 CAS 会话， 因此 比较 容易 发 生 混淆 ， 读 者 需要 稍 加 区 分 。 


居 访 问 的 相关 概念 和 方 


SAS Viya 应 用 开发 人 员 还 可 以 在 SAS Viya 与 SAS 9 环境 之 间 进 行 协同 开发 ， 以 及 调用 第 三 方 开发 语言 接口 开发 基 了 


别 在 本 书 的 第 7 章 和 第 9 章 进 行 详细 介绍 。 


2.1 如 何 运行 SAs 代 码 


绍 如 何 使 


在 SAS Viya 中 ， 开 发 人 员 可 以 通过 客户 端 SAs Studio 交 互 式 
批 处 理 和 交互 式 行 模式 开发 和 提交 SAS 代 码 。 


2.1.1 ”SAS 程序 的 基本 组 成 


.i 


SAS Viya 的 应 F 


发 和 提交 SAS 代 码 或 SAS 任 务 。 本 节 将 从 SAS 程 序 的 基本 组 成 


。 这 部 分 的 内 容 在 本 章 的 最 后 会 进行 简单 介绍 ， 具 体 的 开发 过 程 将 分 


台 ， 对 使 用 SAS Studio 开 发 SAS Viya 应 用 着 重 进行 讲解 ， 同 时 还 将 简要 介 


SAS 程 序 用 于 访问 、 管 理 、 分 析 和 展现 数据 。 其 基础 组 成 部 分 是 DATA 步 和 PROC 步 ，PROC 步 又 称 为 SAS 过 程 。 一 个 SAS 程 序 可 包含 以 任意 顺序 组 合 的 多 个 DATA 步 和 多 个 PROC 步 。 除 此 之 外 ，SAS 程 
序 还 可 能 包含 单独 的 SAS 语 句 和 注释 。 


(1) DATA 步 


{ESAS Viya 中 ，DATA 步 可 以 用 于 创建 和 操作 数据 集 ， 还 可 以 将 数据 加 载 到 CAS 服 务 器 。 例 如 ，DATA 步 可 用 于 计算 值 、 检 查 并 修正 数据 中 的 错误 、 将 数据 永久 存储 到 SAS 数 据 集中 以 便于 后 续 使 用 ， 以 
及 通过 对 已 存在 的 数据 集 取 子 集 、 合 并 和 更 新 产生 新 的 数据 集 。DATA 步 由 关键 字 DATA 开 始 。 


在 SAS Viya 中 ,创建 和 操作 数据 也 可 通过 PROC CAS, PROC CASUTIL 来 实现 。 


(2) PROC 步 


PROC 步 又 称 为 过 程 步 ， 是 一 些 预先 写 好 的 实现 特定 功能 的 例 程 ， 不 同 的 PROC 步 其 提供 的 功能 也 各 不 相同 。 


PROC 步 通常 用 于 分 析 和 处 理 SAS 数 据 集中 的 数据 ， 并 以 适当 的 形式 
、 产 生 图 表 等 。 有 些 PROC 步 会 创建 包含 该 过 程 结果 的 新 SAS 数 据 集 。 


在 SAS Viya 中 ，CAS 过 程 步 (PROC CAS) 能 够 提供 与 DATA 步 类 似 


(3) SAS 语 句 


SAS 程 序 还 包含 SAS 语 句 ， 每 条 SAS 语 句 通常 会 以 SAS 的 关键 字 开始 ， 并 总 是 以 分 号 结束 。 实 际 上 ，DATA 步 和 PROC 步 也 是 由 SAS 语 句 组 成 的 ， 并 


PROC 步 由 关键 字 PROC 开 始 。 


展现 数据 和 信息 ， 例 如 PROC 步 可 列 出 、 排 序 和 汇总 数 所 


的 功能 ， 用 于 创建 和 操作 CAS 表 ， 而 ACTION 可 提供 数据 分 析 和 处 理 功能 。PROC CASUTIL 可 


居 ， 也 可 以 产生 描述 性 的 统计 量 ， 并 对 


进行 分 析 和 优化 ， 从 而 创建 汇总 报 


于 加 载 和 管理 CAS 表 。 


通常 包含 多 条 语句 。SAs 语 句 的 形式 很 自由 ， 可 以 在 


一 行 的 任何 地 方 开始 和 结束 ， 每 条 语句 可 跨越 多 行 ， 多 条 语句 也 可 以 在 同一 行 。 语 句 中 的 “ 词 ” 以 空格 或 特殊 字符 分 开 。SAS 语 句 不 区 分 大 小 写 ， 但 是 在 大 多 数 时 候 ， 引 号 中 的 文本 是 区 分 大 小 写 的 。 


(4) 注释 


可 以 在 SAS 程 序 的 任何 地 方 使 用 注释 语句 来 说 明 程序 的 


* 消 息 ; 


消息 为 注释 的 内 容 ， 可 以 是 任意 长 度 ， 但 必须 写成 和 


第 二 种 形式 如 下 : 


/* 消 息 */ 


消息 为 注释 的 内 容 ， 也 可 以 是 任意 长 度 ， 可 以 说 套 任何 类 型 的 注释 ， 还 可 以 包含 分 号 和 不 


下 面 是 使 用 注释 的 几 个 例子 。 


例 1: 


*Do NOT edit below this line!; 


例 2: 


/* Do NOT edit below this line! */ 


例 3: 


独 的 语句 ， 并 以 分 号 结束 ， 所 以 消息 即 注释 内 容 的 内 部 不 能 包含 分 号 。 


匹配 的 引号 。 在 宏 语言 中 使 


BOOSIE I IFIEIS IIS II ISIE EEEE EREEREER I ISIC III AIR II 


* PROGRAM SETUP 


* Use this section to alter macro variables, options, or 


* other aspects of the test. 


No Edits to this Program are 
* allowed past the Program Setup section! ! 


FOSS E E E E K AE K AE A E I E ERE AE E E K E K AE K A II A K IOI ICAI III IIR I / 


我 们 来 看 下 面 的 一 段 代 码 : 


libname locallib '/opt/sas/data'; 


cas mysess host="cashost" port=5570; 


/* 建 立 CAS 引 擎 逻辑 库 */ 


libname mycaslib cas; 


data mycaslib.hmeq; 
set locallib.hmeq; 
run; 


注释 时 ， 必 须 使 用 这 种 方式 。 


的 ， 或 者 解释 不 好 理解 的 程序 片段 ， 或 者 描述 复杂 程序 中 的 一 些 步骤 或 计算 原理 。 注 释 有 两 种 基本 形式 ， 第 一 种 形式 如 下 : 


proc cas; 
action tableinfo result=r /table='hmeq'; 
print r; 
run; 
action columninfo result=r /table='hmeq'; 
print r; 
run; 
action simple.summary/table='hmeq'; 
run; 
quit; 


该 段 代码 用 于 建立 CAS 会 话 、 将 数据 装载 到 CAS、 探 索 CAs 中 表 的 信息 、 并 为 表 中 的 数字 变量 生成 描述 性 统计 量 。 代 码 中 的 语句 分 解 具体 如 下 。 


1) LIBNAME 语 名 建立 SAS 逻 辑 库 locallib。 


2) CAs 语 句 创建 并 连接 到 CAS 控 制 器 主机 名 为 cashost 的 CAS 服 务 器 ， 会 话 端 口 为 5570。 该 过 程 会 自动 创建 CAS 逻 辑 库 CASUSER。 


3) 第 二 个 LIBNAME 语 句 创建 与 刚才 建立 的 CAs 会 话 和 CAS 逻 辑 库 相关 联 的 CAS 引 警 逻辑 库 。 


4) DATA 步 将 数据 hmeq 从 locallib 逻 辑 库 加 载 到 CAS 引 警 逻 辑 库 mycaslib， 目 标 表 名 为 hmeq。 


5) 在 PROC CAs 中 ， 首 先 调用 了 名 称 为 tableinfo 的 ACTION 来 显示 表 hmeq 的 信息 ; 接 下 来 调用 了 名 称 为 columninfo 的 ACTION 来 显示 表 hmeq 的 列 信息 ; 然后 调用 ACTION simple.summary (其 
中 ，simple 是 ACTION 集 ，summary 是 该 集合 中 的 一 个 ACTION) 为 hmeq 表 的 数字 变量 生成 描述 性 统计 量 。 


代码 中 SAS 语 句 (LIBNAME 语 句 、CAS 语 句 ) 、DATA 步 、CAS 过 程 标注 如 


2.1 所 示 。 其 中 DATA 步 还 包含 DATA 语 句 、SET 语 句 和 RUN 语 句 。 同 理 ，CAS 过 程 也 包含 对 应 的 SAS 语 句 。 


区 


lilibname locallib '/opt/sas/data'; 一 一 一 一 一 LIBNAMEi24) 
2 

3 cas mysess host="cashost" port=5570; 一 一 一 一 CAS 语 句 

4 

5 /* 建 立 CAS 引 擎 逻辑 库 */ ”一 一 一 一 一 注释 

6 libname mycaslib cas; 一 一 一 一 一 LIBNAME 语 句 

7 

8 data mycaslib.hmeq; 

9 set locallib.hmeq; DATA 
10 run; 

alal 

12 proc cas ; 

its action tableinfo result=r /table='"hmeqg'; 

14 print r; 

15 run; 

16 action columninfo result=r /table='hmeq'; CAS 过 程 
1 By | print r; 

18 run; 

ihe, action simple.summary/table='"hmeg'; 

20 run; 
21 quit; 


图 2.1 SAS 语 句 、DATA 步 、PROC 步 


2.1.2 SAS Studio 


SAS Studio 是 基于 HTML5 的 Web 应 用 ， 
析 和 处 理 过 程 。 


是 基于 SAS Viya 进 行 SAS 开 发 的 主要 交互 式 界面 。 通 过 SAS Studio， 用 户 能 够 提交 SAS 程 序 语句 运行 并 获取 结果 ， 同 时 它 还 将 提供 交互 方式 指导 用 户 完成 分 


通过 SAs Studio 编 写 的 代码 或 通过 图 形 界面 生成 的 分 析 过 程 ， 首 先 会 提交 到 SAS 客 户 端 会 话 执行 ，SAS 客 户 端 会 话 会 根据 分 析 的 具体 任务 决定 是 直接 在 SAS 客 户 端 执行 ， 或 者 是 在 CAS 会 话 中 执行 ， 
运行 的 结果 将 返回 SAS Studio 客 户 端 。 


SAS Studio 是 一 个 非常 丰富 的 操作 界面 。 登 录 SAS Studio 4.1 的 窗口 如 图 2.2 所 示 ， 下 面 将 描述 其 中 包含 的 三 个 主要 部 分 。 


(1) 应 用 程序 图 标 


窗口 顶部 包含 应 用 程序 图 标 EEEIESIESIKOEB .应 用 程序 图 标 包括 搜索 文件 、 打 开 文 件 、 选 项 卡 操作 、 其 他 应 用 程序 选项 (如 所 有 SAS 代 码 运行 前 自动 运行 的 AUTOEXEC 文 件 中 的 代码 、CAS 会 话 管理 、 选 择 
界面 显示 的 视图 和 选项 等 ) 、 显 示 帮 助 信息 和 注销 该 用 户 。 


< OJ] http://cashost:38080/main?locale=zh CN&zone=GMT%252B08%253A00&http%3A%2 © ~ © | 图 SAs Studio 
SAS* Studio 


4 服务 器 文件 和 文件 夹 留 -程序 1 x 
e- ALTEO RB 日 志 
> Ba 文件 夹 快捷 方式 KO GRBIBIE OO le h g7 }O\% Mim Ris 


> Bare) 1 libname locallib '/opt/sas/viya/home/SASFoundation/samples/samplesm1'; 
2cas mysess host="cashost" port=5570; 


4 proc casutil; 
5 


load data=locallib.hmeq casout="hmeq'; 
6 run; 
T quit; 
8 
9 proc cas; 
10 
11 tableinfo result=r /table="hmeq'; 
12 print r; 
run; 


columninfo result=r /table="hmeq'; 
print r; 
run; 


simple.summary/table="hmeq'; 
run; 


> FSAI 
p 代码 段 

> 逻辑 库 

> 文件 快捷 方式 


图 2.2 SAS Studio 界 面 


(2) 导航 栏 


窗口 的 左 侧 是 具有 多 个 可 折 双 条 目的 导航 栏 。 导 航 栏 提供 的 条 目 包含 “服务 器 文件 和 文件 来 ” “任务 和 实用 程序 ” “代码 段 ”“ 逻 辑 库 ” 和 “文件 快捷 方式 ”。 


(3) 工作 区 


右 侧 窗口 是 工作 区 ， 包 括 主要 的 选项 不。 显示 在 工作 区 开发 或 打开 的 应 用 程序 、 任 务 名 称 ， 或 SAS 数 据 表 等 。 根 据 选项 卡 打开 的 文件 类 型 不 同 ， 工 作 区 会 显示 对 应 的 、 可 执行 的 相关 操作 的 图 标 。 例 
如 ,打开 SAS 程 序 “ 程 序 1” 后 ， 可 以 通过 工作 区 显示 的 对 应 图 标 运 行 、 保 存 及 编辑 BAS 程序 等 操作 。 


1.SAS 代 码 开 发 


点 击 工作 区 的 “代码 ”选项 卡 ， 将 2.1.1 节 中 的 代码 输入 或 复制 到 工作 区 ， 如 图 2.2 所 示 。 点 击 图 标 太 提交 代码 运行 。 运 行 完成 后 ，SAS Studio 会 自动 显示 “结果 ”选项 卡 。 所 显示 的 代码 运行 结果 如 
2.3 和 图 2.4 所 示 。 


在 结果 窗口 的 左上 角 还 会 生成 目录 以 便 对 结果 进行 导航 ， 点 击 展开 目录 如 图 2.4 所 示 。 


CAS 过 程 中 ， 调 用 了 ACTION tableinfo，tableinfo 是 属于 名 字 为 “table” 的 ACTION 集 (ACTION SET) 中 的 一 个 ACTION ， 其 运行 结果 为 表 “r: Results from table.tablelnfo” ， 显 示 了 表 hmeq 
的 相关 信息 ， 包 括 表 名 、 表 标签 、 表 的 行列 数 、 创 建 时 间 、 修 改 时 间 ， 以 及 是 否 是 提升 表 ， 是 否 有 重复 行 、 是 否 压 缩 等 信息 。 同 样 ， 表 “r: Results from table.columnlnfo” 为 CAs 过 程 中 调用 ACTION 集 
table 中 的 ACTION columnlnfo 的 运行 结果 ， 其 显示 了 表 hmeq 的 所 有 关于 列 的 信息 ， 包 括 标签 、 类 型 、 长 度 、 格 式 长 度 及 输出 格式 。 表 “Results from simple.summary” 显 示 了 CAS 过 程 中 调用 ACTION 
集 simple 中 的 ACTION summary 的 运行 结果 ， 还 显示 了 该 表 所 有 数值 型 列 (Æ “r: Results from table.columnlnfo” 中 类 型 为 double) 的 汇总 信息 。 


SAS?’ Studio 


4 服务 器 文件 和 文件 夹 
tt ALTEO 
> By 文件 去 快捷 方式 

> Ma 文 件 (/ 


》 任务 和 实用 程序 
> 代码 段 

> Wie 

b 文件 快捷 方式 


SAS° Studio 


4 服务 器 文件 和 文件 夹 

t pire 69 
> Ba 文件 夹 快捷 方式 

> BESTE (/) 


r Results from table tableinfo 


CAS PiE CASUSER(sasdemo) HRES 


E | seas | 
表 oh ae me 
否 否 5 5 


| elal ms] 
RE 数 | 数 55 | Ne 上 次 修改 时 间 
HMEQ | 5960 | 13 utf-8 | 2016 年 12 月 22 日 19 时 16 分 51 秒 | 2016 年 12 月 22 日 19 时 16 分 51 秒 


列 | BNE | RAS | 数目 总 和 SG 标准 差 | 标准 误差 方差 pig 平方 和 平方 和 ë Wā 
BAD 0 1.0000 | 5960 1189 | 0.1995 0.3997 | 0.005177 0.1597 | 20033 951.80 1189.00 | 38.54 | <.0001 
LOAN 1100.00 89900 | 5960 | 110903500 18608 11207 145.17 | 1.2561E8 | 60.2295 | 7.485E11 | 2.812E12 | 128.18 | <.0001 


MORTDUE | 2063.00 | 399550 | 5442 | 401406367 73761 44458 602.65 | 1.9765E9 | 60.2727 | 1.075E13 | 4.036E13 | 122.39 | <.0001 


Ošs: 用 户 :sasdemo 


图 2.3 SAS Studio 的 代码 运行 结果 


CESTE] 


代码 日 志 结果 
PRABA E 
4 目录 
4 fim The CAS Procedure 
4 图 --table.tableinfo 
LR CAs 逻辑 库 CASUSER(sasdemo) 的 表 信 息 
4 图 -table.columnlnfo 
LX cas 逻辑 库 *CASUSER(sasdemo)j” 中 *HMEQ" 的 列 信息 
4 图 simplesummary 
CÈ “HMEQ" 的 描述 性 统计 量 


r- Results from table tableinfo 


CAS BSF CASUSER(sasdemo) 的 去 信息 


eee xsi 


提升 | 重复 的 | 
k | 行政 | 查看 ES 
s| a & S 


HMEQ | 5960 | 13 | utf8 2016 年 12 月 22 日 19 时 16 分 51 秒 | 2016 年 12 月 22 日 19 时 16 分 51 秒 | 


图 2.4 SAS Studio 的 代码 运行 结果 目录 


点 击 “ 日 志 ” 选 项 卡 ， 可 以 显示 代码 运行 日 志 ， 并 在 该 窗口 的 开始 处 对 日 志 信息 进行 分 类 。 日 志 包括 错误 、 警 告 、 注 解 等 类 别 ， 如 图 2.5 所 示 。 
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SAS* Studio 


4 服务 器 文件 和 文件 来 
e @ireas 
> BL 文件 夹 快捷 方式 

> meee) 


CEST x| 
代码 | B% 
BBl/E\47& 
aiin Bei E 
VORR 
‘ASS 
> OE (10) 


OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK; 


libname locallib ‘/opt/sas/viya/home/SASFoundation/samples/samplesm1' ; 
: 已 成 功 分 配 逻 辑 库 引 用 名 "LOCALLIB”， 如 下 所 示 : 
引擎 ; V9 
物理 名 : /opt/sas/viya/home/SASFoundation/samples/samplesml 
cas mysess host="cashost" port=5570; 
: The session MYSESS connected successfully to CAS server cashost using port 5570. The UUID is 
708d95ec-eaf9-b041-8b3c-46875854893f. The user is sasdemo and the default CASLIB is CASUSER(sasdemo) . 
: The SAS option SESSREF was updated with the value MYSESS. 
: The SAS macro _SESSREF_ was updated with the value MYSESS. 
: The session is using @ workers. 


proc casutil; 
: The UUID '708d95ec-eaf9-b041-8b3c-46875854893F* is connected using session MYSESS. 


! load data=locallib.hmeq casout='hmeq'; 


任务 和 实用 程序 
D R 


: LOCALLIB.HMEQ was successfully added to the "CASUSER(sasdemo)" caslib as “hmeq". 
run; 


> PIE 
文件 快捷 方式 


quit; 


: “PROCEDURE CASUTIL” 所 用 时 间 〈 总 处 理 时 间 )〉: 


图 2.5 SAS Studio 的 代码 运行 日 志 


PARA EH, LEG 信 可 分 别 将 结果 保存 为 HTML、PDF 和 RTF 文 档 ， 以 便于 分 发 。 检 查 程序 运行 无 误 之 后 ， 可 在 工作 区 点 击 代码 选项 上 不 ， 点 击 “保存 ”图 标 来 保存 代码 。 


SAS Studio 还 提供 了 代码 开发 及 辅助 功能 ,例如 提示 菜单 及 帮助 文档 ， 拖 放 表 和 表 列 生成 代码 等 。 


(1) 提示 菜单 和 帮助 


SAS Studio 提 供 了 代码 的 提示 功能 及 对 应 语句 的 帮助 菜单 ， 如 图 2.6 所 示 。 


SAS° Studio 


4 服务 器 文件 和 文件 夹 | | 区 "程序 1 x 

it~ ALFEO 代码 ”| B% 结果 

> Ba 文件 夹 快捷 方式 $o- HWBBG!IB!|E'S@4/\e¢ & BF © X% bi 
> Ma 文件 (/) 


关键 字 : CAS 
上 下 文 : [全 局 语句 ] cas 语句 


Syntax: CAS session-reference-name options; 
where: 


session-reference-name is a valid SAS name tha 
v 
The CAS statement creates. disconnects or tern 


图 2.6 SAS Studio 的 代码 提示 功能 


(2) 拖 放 表 和 表 的 列 生成 代码 


在 如 图 2.7 所 示 的 界面 下 ， 在 导航 栏 中 选择 “逻辑 库 ”， 展 开 “ 我 的 逻辑 库 ”， 选 择 “MYCASLIB”。 选 中 表 HMEQ， 并 将 其 拖 放 到 右 侧 工 作 区 ， 即 可 生成 相应 的 代码 。 
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SAS° Studio 


> 服务 器 文件 和 文件 夹 (Bee x | 

b 任务 和 实用 程序 代码 Am 结果 

> 代码 段 ko HWS BEG 
4 Wise % MH MRK 


lproc mdsummary data= MYCASLIB.HMEQ 
aot E O 


4 部 我 的 逻辑 库 
LOCALLIB 
4 & MYCASLIB 
> FR CLASS 
> EX HMEQ 
b 部 SASHELP 
> i WORK 


$8147 , 第 17 列 
图 消息 : 10 用户 : sasdemo | 


图 2.7 SAS Studio 中 表 名 的 拖 放 


在 VAR 语 句 中 给 出 变量 名 时 ， 可 展开 左 侧 导 航 窗口 的 HMEQ 表 即 可 展示 所 有 列 。 选 中 其 中 的 三 列 BAD、CLAGE 和 CLNO， 并 将 其 拖 放 到 右 侧 工作 区 代码 域 ， 即 可 生成 相应 的 代码 ， 如 图 2.8 所 示 。 


2. 利 用 预定 义 代码 段 开 发 SAS 应 用 


前 面 介绍 了 在 SAS studio 中 如 何 开 发 连接 CAS 会 话 、 创 建 CAS 罗 辑 库 和 SAS 逻 辑 库 ， 以 及 如 何 导 入 数据 的 代码 。 为 了 提高 开发 人 员 的 工作 效率 ，SAS Studio 还 提供 了 一 些 常用 的 代码 段 ， 开 发 人 员 可 以 
将 这 些 代码 段 直接 插入 自己 的 SAS 程 序 中 。 


例 2.1 在 SAS 程 序 中 插入 新 建 CAS 会 话 的 代码 段 。 


在 SAS studio 的 工作 区 “新 建 SAS 程 序 ”， 此 时 该 程序 内 容 为 空 。 在 左 侧 导航 栏 中 选择 “代码 段 ”。 在 代码 段 面板 中 ， 展 开 “Cloud Analytic Services”， 右 键 点 击 “ 新 建 CAS 会 话 ”选择 “插入 ”或 
双击 “新 建 CAS 会 话 ”， 新 建 CAS 会 话 的 代码 段 会 自动 插入 到 SAS studio 的 工作 区 “新 建 SAS 程 序 ” 中 的 光标 处 ， 如 图 2.9 所 示 。 


re] >B http://cashost:38080/main?locale=zh C ® ~ © B SAS Studio 
SAS° Studio 


》 服务 器 文件 和 文件 夹 区 :程序 1 x | 

b 任务 和 实用 程序 代码 日 志 结果 

>» 代码 段 KO HBWBBkhOoO Z AR 
4 逻辑 库 *% HME A 


lproc mdsummary data= MYCASLIB.HMEQ; 
i E O 2var BAD CLAGE CLNO| 


4 部 我 的 逻辑 库 
> &) LOCALLIB 
4 只 MYCASLIB 

> FRR CLASS 


4 EX HMEQ 
图 BaD 
@ CLAGE 
图 cLNO 
图 DEBTINC 
图 DELNQ 
图 DEROG 
Ê JOB 
图 LOAN 
@ MORTDUE 
® NINQ 
4 REASON 


b 文件 快捷 方式 第 2 行 ,第 20 列 
© 消息 : 10 用 户 : sasdemo 


图 2.8 SAS Studio 中 列 名 的 拖 放 


SAS* Studio 


r ] 
> 服务 器 文件 和 文件 夹 | 留 程序 1 x | Ba -补缺 x | 合 " 神 经 网 络 x | 欧 程 序 2 x | 
任务 和 实用 程序 代码 日 志 结果 | 
a RUR KO URDBIİIBIAIS alr & & Zs Ox Him Ein 
加 TE 
LRE O 2/* Start a session named mySession using the existing CAS server connection */ 
3/* while allowing override of caslib, timeout (in seconds), and locale */ 
Me 我 的 代码 段 4/* defaults. af 


«MBE 二 二 二 
4 BE Cloud Analytic Services 6 
B 新 建 As 会 话 Tcas mySession sessopts=(caslib=casuser timeout=1800 locale="en US"); 
B 断 开 cas 会 话 3 
D 重新 连接 cas 会 话 
车 终止 cAs 会 话 
B 列 出 cas 会 话 选项 
B » sas 客户 端 列 出 cas 会 话 
B 为 用 户 ,D 列 出 CAs 会 话 
Bs 为 路 径 新 建 CAS 逻辑 库 
B 为 cas 逻辑 库 生成 SAs 逻辑 库 引用 名 
B 将 数据 加 载 至 CAS PE 
B 从 cAs 逻辑 库 中 删除 表 或 文件 
BS 删除 cas 逻辑 库 
< 月 机 器 学 习 

B 加 载 数 据 
B 准备 和 探索 数据 
B 比较 两 种 ML 算法 
B 比较 多 种 ML 算法 
weber 

》 Hae 

文件 快捷 方式 第 17 行 ,第 1 列 

Re 2 === : @i8:6 用 户 :sasdemo 


图 2.9 SAS Studio 插 入 代码 段 到 SAS 程 序 中 


接 下 来 就 根据 需要 对 插入 的 代码 进行 修改 即 可 ， 而 不 必 从 头 开始 写 代码 。 


3.71} 


SAS Studio 中 除了 为 开发 人 员 提 供 编写 SAS 代 码 的 编程 界面 之 外 ， 还 提供 了 交互 式 向 导 ， 以 帮助 开发 人 员 更 方便 地 开发 SAS 应 


例 2.2 利 


(1) 新 建 CAS 会 话 并 将 数据 加 载 到 CAS 


在 工作 


任务 向 导 开发 SAS 应 用 


5 lie 
Wo 


BA 
REASON 
JOB 
LOAN 
MORTDUE 
VALUE 
DEBTINC 
YOJ 
DEROG 
CLNO 
DELINQ 
CLAGE 
NING 


区 新 建 SAS 程 序 。 在 SAS studio 窗口 左 侧 导航 栏 选择 代码 段 ， 在 代码 段 面 板 中 逐 项 展开 “代码 段 ”， 


SAS studio 的 任务 向 导 建立 神经 网 络 模型 。 数 据 为 SAs Viya 中 自 带 的 HMEQ 表 ， 其 变量 信息 见 表 2.1。 


表 2.1 HEMQ 表 的 变量 信息 


变量 类 型 描述 
数值 型 
数值 型 
字符 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
数值 型 
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> | Si 
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W 
H 


a 
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+ | Ke 
bai 


请 求 贷款 数目 
已 有 抵押 数 
当前 财产 价值 
负债 收入 比 

当前 工作 年 限 
主要 贬损 报告 数目 
交易 次 数 

拖欠 交易 次 数 
最 久 交 易 时 间 
最 近 信用 查询 数 


>|>|> 
| fo | fae | et 
pa | J | aa | E 
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elele 
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3 
> 
a 
faln | E 
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at 
a Pas 
Xe 
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Si 
> 
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tf 


s|s 
> |> 
S 
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"Cloud Analytic Services”， 然 后 双击 “新 建 CAS 会 话 ”。 接 着 ， 


击 “加 载 数据 ”。 含 自动 生成 代码 的 SAS Studio 界 面 如 图 2.10 所 示 。 


SAS” 
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Studio 


服务 器 文件 和 文件 夹 
任务 和 实用 程序 
4 代码 段 


e 


Lai 
E 


ñ RE S 


我 的 代码 段 
RER 


4 BE Cloud Analytic Services 


4 


车 新 建 CAS 会 话 
B iit CAS 会 话 
D 重新 连接 cas 会 话 
Bit cas Sis 
B AH cas 会 话 选项 
B 为 SAs 客户 端 列 出 CAS 会 话 
B 为 用 户 ID 列 出 CAS 会 话 
D 为 路 径 新 建 CAS wae 
BW CAS BARFE SAS 逻辑 库 引用 名 
D 将 数据 加 载 至 CAS WE 
BACs 远 辑 库 中 删除 表 或 文件 
B mrt cas 逻辑 库 
Biers 
局 加载 数据 
局 准备 和 探索 数据 
D 比较 两 种 ML 算法 
B 比较 多 种 ML 算法 
车 广义 线性 模型 
车 无 监督 学 习 
车 受 监督 学 习 


> Sie 
》 文 件 快捷 方式 


提交 代码 运行 ， 并 检查 日 志 ， 确 认 没有 错误 发 生 。 在 SAs studio 导航 栏 中 点 击 “ 逻 辑 库 ”， 在 逻辑 库 


SAS Studio 


Ger. x 
代码 日 志 | 结果 
KO EZRAGB'B! E19 Eal & RFE (O\% MH mE 


YJ BARE AAA A ERA A HARA EEE EE EERE EEE AEA ASAAEAAAAEEAEESEREE EERE SEES E SEAS EASA AE AREA EEA) 
2/* Start a session named mySession using the existing CAS server connection */ 
3/* while allowing override of caslib, timeout (in seconds), and locale +/ 
4/* defaults. “/ 
G [PRR RRR REAR RENAN ERE EE RER EERE AS EREAN SEER NE REEE EER ER RESELLER EERE EER ERER RRS A / 
6 

Tcas mySession sessopts=(caslib=casuser timeout=1800 locale="en_US"); 
"PRO E E E I EERE EE 
10/* This is the first in a series of examples provided to demonstrate the +f 
11//* use of SAS Viya Data Mining and Machine Learning procedures to compose */ 
12,/* a program that follows a standard machine learning process of */ 
13//+ - loading data, +/ 
preparing the data, a/ 
building models, and */ 
assessing and comparing those models */ 


14/* 


a/* - 
Gl/* - 
i/* */ 


18/* The programs are written to execute in the CAS in-memory distributed =f 
i| 19/* computing engine in the SAS Viya environment. +f 
20/* +/ 
21/* This first example showcases how to load local data into CAS */ 


QQ [EERE H EERE RASH AER EEE EERE REER EEE EE EA AER EEE EER EREEE EERE EE EEE ERERES EERE ERA ERED / 


23 


24 [EERE REE E REESE HEREERE REE EEE EERE EEERAERESE EER ER EERE LEER EEE SEER ESA EREE RAE EES / 


25/* Setup and initialize for later use in the program */ 
2G / A HERES AAAAAAAEA EEA EEEEES ESAS SESE SAA EA EEA E EEE E EEE DHE HEE EEE EEE EEE EEE EES / 
27/* Create a SAS libref to machine learning sample data library */ 

28 libname locallib "!SASROOT/samples/samplesml1"; 

29 

30/* Define a CAS engine libref for CAS in-memory data tables */ 

31 1ibname mycaslib cas caslib=casuser; 

32 

QQ [tHEt Ra RREHSERASS ERATE SERS SEERA AREAS EASES SESE AE ERE EES ERE AREAS ASSESS EERES EES / 
34/* Load data into CAS af 
35//* ay 


ap /+ The data set need for this workflow is from a financial services comnany */ 


2.10 SAS Studio 加 载 数据 


板 中 展开 “我 的 逻辑 库 ”， 


回 


1; 偿还 贷款 : 0 


展开 “机 器 学 习 ”， 双 


3 xX 
MECA ] 


“MYCASLIB”， 可 以 看 到 HMEQ 已 经 加 载 到 CAS 中 了 ， 如 图 2.11 所 


SAS Studio 


》 服务 器 文件 和 文件 夹 
> 任务 和 实用 程序 


> 


Ei 


代码 段 
逻辑 库 


ao i B&W 
4 部 我 的 逻辑 库 


> g LOCALLIB 
4 只 MYCASLIB 

> ER HMEQ 
六 SASHELP 
> i) WORK 


(2) 对 HMEQ 中 的 数据 缺失 值 进行 补缺 


对 原始 数据 中 的 缺失 值 进行 补缺 是 数据 挖掘 过 程 中 的 一 个 常 


图 2.11 SAS Studio új SAS% #4 


技术 。 在 SAS Viya 中 可 以 利 


SAS studio 的 任务 向 导 很 轻松 地 进行 实现 。 


在 导航 栏 中 选择 “任务 和 实用 程序 ”， 并 展开 “任务 ”， “准备 和 探索 ”， 双 击 “ 补 缺 ”。 在 右 侧 工作 区 打开 拆 分 的 补缺 设置 和 代码 窗口 。 在 设置 的 “数据 ” 框 中 选择 MYCAsLIB 中 的 HMEQ， 对 除 


BAD 之 外 ( 因 
法 。 


为 BAD 为 目标 变量 ) 的 其 他 数值 型 变量 的 缺失 值 使 


均值 进行 替换 ， 如 图 2.12 所 示 。 除 了 均值 以 外 ， 该 任务 中 还 提供 了 利用 变量 的 均值 、 中 位 数 和 随机 数 对 数值 型 变量 的 缺失 值 进 行 替换 的 方 
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》 服 务 器 文件 和 文件 夹 为 程序 1 x | Tine x 


4 任务 和 实用 程序 Ge Ree no AURII 

-REO BR 输出 信息 

> ie 我 的 任务 4 数据 a |i JOH aaa 

“旧作 各 

4B 准备 和 探索 

工 汇 总 
LE 转换 数据 4 角色 生成 时 间 : “16/12/22 下 午 7:58” 

也 变量 生成 人 员 : “sasdemo” 

用 均值 苦 换 缺失 值 : 生成 服务 器 : “CASHOST” 

党 抽样 图 LoAN 生成 sas 平台 : “Linux LIN x64 2.6.32-279.e16.x86_64” 

BSE @ 生成 sas WOK: “v.03.01M0P09072016” 

Pom SERIE 生成 浏览 器 : “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; 1 

x @vaue 生成 Web 客户 端 : “http: //cashost:38080/main?locale=zh_CN&zone=GMT%252B08% 


Ea 补缺 图 Yo) 
> 无 监督 学 习 图 DERoG d 
EZKE 图 DELNQ 15 ds noproctitle; 

bie Ea @ CAGE 16 

li} Logistic 回 归 i @ning 17 proc varimpute data=MYCASLIB.HMEQ; 

W 广义 线性 模型 @cino 18 input LOAN MORTDUE VALUE YOJ DEROG DELINQ CLAGE NINQ CLNO DEBTINC 


9 run; 
fa, 决策 树 
> 神经 网 络 apnea 
所 森林 四 
各 EPEE Boosting 
L 因子 分 解 机 
支持 向 旺 机 


[MYCASLIB.HMEQ } 
Tues (无 ) 任务 代码 由 sas studio 4.1 生成 


> 文件 快捷 方式 


图 2.12 SAS Studio 的 补缺 任务 向 导 (1) 


在 工作 区 中 选择 “输出 ”选项 卡 ， 创 建 补缺 后 生成 的 数据 集 为 MYCASLIB.HMEQ_IMP， 并 为 “包括 输入 数据 集中 的 变量 ”选择 “ 选 定 变量 ”， 并 通过 选择 按钮 “+ ” ， 在 选择 窗口 中 加 入 三 个 变量 
BAD、REASON 和 JOB， 如 图 2.13 所 示 。 


点 击 类 运行 该 任务 ， 运 行 结果 如 图 2.14 所 示 。 


SAS Studio 


> 服务 器 文件 和 文件 夹 Beri x |e x) 

4 任务 和 实用 程序 (URSA es jc GAR 

í- REO 数据 输出 信息 代码 晶 志 | 结果 

> ime 我 的 任务 4 输出 数据 集 © BIB Bl" \[7e JO|M| sea 

NES DURE BEROA CAS 引擎 逻辑 库 引用 E 

aR 各 : 

工 江 总 回 创建 答 出 数据 集 
LE pemde | * 数 据 集 名 称 : 
内 变量 选择 | [MYCASLIB.HMEQ_IMP 生成 服务 器 : “CASHOST” 


党 抽样 生成 sas Ff: “Linux LIN X64 2.6.32-279.e16.x86_64” 

mow 包括 输入 数据 集中 的 变星: 生成 sas MÆ: “V.03.01M0P09072016” 

Poi | 图 全 部 变 最 生成 浏览 器 : “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; 1 
© 分 析 中 使 用 的 变量 生成 web BPH: “netp://cashost :38080/main?locale=zh_CN&zone=GMT%252B08% 


任务 代码 由 SAS Studio 4.1 生成 


生成 时 间 : “16/12/22 下 午 8:00” 
生成 人 员 : “sasdemo” 


oan Np 


> 月 无 监督 学 习 (CES / 
4B 受 监督 学 习 图 选 定 变 呈 


bi 线性 回归 
lii Logistic 回 归 图 BAD = 17 proc varimpute data=MYCASLIB.HMEQ; 


15 ods noproctitle; 


* 包 括 以 下 变星 : uo 


input LOAN MORTDUE VALUE YOJ DEROG DELINQ CLAGE NINQ CLNO DEBTINC 
output out=MYCASLIB.HMEQ IMP copyvars=(BAD REASON JOB); 


好 广义 线性 模型 REASON 
2 决策 树 108 

> 神经 网 络 
kE 

各 HEE Boosting 
k 因子 分 解 机 
支持 向 量 机 


> 
第 1 行 ,第 1 列 


@ 8:2 用户 :sasdemo 


图 2.13 SAS Studio 的 补缺 任务 向 导 (2) 
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4 任务 和 实用 程序 We eee | 折 分 AURE 
&- GREG | BE 输出 信息 


» ime 我 的 任务 入 | 输出 数据 集 


“加 任务 以 下 数据 集 名 称 必须 使 用 CAS 引 莒 逻辑 库 引用 
4B 准备 和 探索 各 : 
rcs 创建 输出 数据 集 
LE 转换 数据 * 数 据 集 名 称 : 


也 变 呈 选择 [MYCASUB.HMEQ_IMP ES | 


党 抽样 
名 分 区 包括 输入 数据 集中 的 变量 : 
Ron @ 全 部 变量 
B 补缺 O 分 析 中 使 用 的 变量 
> REE Ozer 
4 EEEE] 图 选 定 变量 
if SH k + 包括 以 下 变量 : 
li Logistc 回 归 图 BAD 
W 广义 线性 模型 | 4 REASON 
2, 决策 树 | 408 
> 神经 网 络 
所 森林 
&, EEE Boosting 
kL 因子 分 解 机 
支持 向 最 机 
> 肯 评价 和 实施 
REK 


> BR 
> Sie 
文件 快捷 方式 


‘EEE EVE] FE/H EVER | | 


737608172 
1.18605505 


101775.049 


892226814 


图 2.14 SAS Studio 的 补缺 任务 运行 结果 


(3) 对 BAD 变 量 建 模 ， 建 模 方法 使 用 神经 网 络 


在 导航 栏 展开 “ 受 监督 学 习 ”， 双 击 “ 神 经 网 络 ”。 在 右边 工作 区 打开 的 神经 网 络 的 窗口 中 ， 选 择 数据 MYCASLIB.HMEQ_IMP、 目 标 BAD、 所 有 区 间 型 输入 和 所 有 列 名 型 输入 ， 如 图 2.15 所 示 。 
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SAS* Studio 


> 服务 器 文件 和 文件 夹 Geri x | Bae x | 今 神 经 网 络 x 
| 
4 任务 和 实用 程序 A| a URIX 


&- GRIEG 数据 选项 输出 信息 代码 日 志 结果 
> me 我 的 任务 4 数据 ©- BIDIA % [FE 四 Mo | 编辑 
mies 
ues 
rica 
LE 转换 数据 输入 数据 包含 训 红 数 据 。 包 括 : 


(ul 变量 选择 加 验证 数据 成 服务 器 : “CASHOST” 


S et Oae :成 SAS 平台 : “Linux LIN X64 2.6.32-279.e16.x86_64” 
se 标识 分 区 : 成 SAS 版 本 : “V.03.01M0P09072016” 

生成 浏览 器 : “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; 1 
Son 指定 样本 比例 本 wz 5 

生成 web 客户 端 : “http: //cashost:38080/main?locale=zh_CN&zone=GMT$252B08% 
Ba 补缺 * 验 证 观测 所 占 比例 : [0.7 


用 无 监督 学 习 o ý 
随机 数 种 子 
< 鹏 受 监督 学 习 15 ods noproctitle; 


be 线性 回归 || “角色 16 libname _tmpcas cas; 


li} Logistic EVA i| 4 目标 ae 
| 18 proc nnet data=MYCASLIB.HMEQ_IMP; 
H partition fraction (validate=0.7) ; 
Gh 决策 树 O 使 用 区 间 型 目标 target BRD / level=nom; 
> 神经 网 络 input IM CLAGE IM CLNO IM DEBTINC IM DELINQ IM DEROG IM LOAN IM MO 
* = IM NINQ IM VALUE IM YOU / level=int; 
型 目标 : k 一 = 2 
总 森林 NEVAN: (sR) input REASON JOB / level=nom; 


[MYCASLIB.HMEQ_IMP -| B) 
《分 区 数据 任务 代码 由 sas studio 4.1 生成 


E 成 时 间 : “16/12/22 下 午 8:01” 
成 人 员 : “sasdemo” 


x L L i h 


好 广义 线性 模型 图 便 用 列 名 型 目标 


部 梯度 Boosting 图 | hidden 50; 


kL 因子 分 解 机 train outmodel=_tmpcas_._Nnet_model_; 
园 支持 向 旺 机 4 输入 optimization regL2=0.1; 

图 支持 向 

区 间 型 输入 : 
图 IM_CLAGE 29proc delete data= tmpcas . Nnet_model ; 
图 Im_ctNo run; 


31 
reply 32 libname _tmpcas_; 
IM_DELINQ 


5 (aS ee ea > 
@im_veERoG 第 1 行 , 第 1 列 
Omes ”用 户 : sasdemo 


文件 快捷 方式 


图 2.15 SAS Studio 的 神经 网 络 任务 向 导 (1) 


点 击 输出 选项 卡 ， 勾 选 “ 创 建 模 型 参数 数据 集 ”， 输 入 MYCASLIB.NNET_OUT， 如 图 2.16 所 示 。 
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SAS’ Studio 


服务 器 文件 和 文件 夹 Ger x | hie x | Seems «| 

4 任务 和 实用 程序 设置 | 代码 /里 果 | 拆 分 ABBR 
ü- REO 数据 选项 输出 信息 代码 日 志 结果 

> ie 我 的 任务 4 输出 数据 集 ©- BIDIA |^” |72 © ihi | 编辑 
NES 以 下 数据 集 名 称 必须 使 用 CAS 引擎 逻辑 库 引用 


<M 准备 和 探索 N 任务 代码 由 sas studio 4.1 生成 
工 汇 总 
LE 转 绚 数据 * 数 据 集 名 称 : Zord : “16/12/22 下 午 8:03” 
i 变量 选择 EMAAR: “sasdemo 
a ue 成 服务 器 : “CASHOST” 
Se it 成 sas Pfr: “Linux LIN X64 2.6.32-279.e16.x86_64” 
mK 创建 模型 参数 数据 集 生成 sas 版 本 : “v.03.01M0P09072016" 
* 数 据 集 名 称 : 生成 浏览 器 : “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; 1 
Pom 生成 web 客户 端 : “http: //cashost:38080/main?locale=zh_CN&zone=GMT%252B08% 


Ba 补缺 MYCASLIB.NNET_OUT 

b 项 无 监督 学 习 指定 评分 代码 的 路 径 名 称 : 
习 7 

Eka 口 保存 评分 代码 15 ods noproctitle; 

bE 线性 回归 文件 名 : 16 

li} Logistic 回 归 i 17 proc nnet data=MYCASLIB.HMEQ_IMP; aa 
A score.sas partition fraction (validate=0.7); 
W 广义 线性 模型 pea target BAD / level=nom; 

al input IM CLAGE IM_CLNO IM DEBTINC IM DELINQ IM DEROG IM LOAN IM MO 

Gh 决策 树 Ls x = & = = 2 
Jiena /home/sasdemo i IM NINQ IM_VALUE IM_YOJ / level=int; 


input REASON JOB / level=nom; 
部 森林 hidden 50; 


& 梯度 Boosting train outmodel=MYCASLIB.NNET_OUT; 
kL 因子 分 解 机 optimization regL2=0.1; 


支持 向 量 机 
> 加 评价 和 实施 
“Bae 

> 代码 段 
> Bae 
> 文件 快捷 方式 


图 2.16 SAS Studio 的 神经 网 络 任务 向 导 (2) 


R] 


点 击 大 运行 该 任务 ， 运 行 结果 如 图 2.17 所 示 。 
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， 服 务 器 文件 和 文件 来 Beers x Pye x | deem x | 


4 任务 和 实用 程序 (ES jit Bale 
ü- REO 数据 | am | 输出 | 信息 | 代码 | 日 志 | 结果 | 输出 数据 | 
> ie 我 的 任务 4 输出 数据 集 BRE &/ sh! *| 
+B is 以 下 数据 集 名 称 必 须 使 用 CAS 引擎 逻辑 库 引用 > 目录 
4 Bb 准备 和 探索 各 : 
rice 
E seams 
(ut 变量 选择 
SB et 
ax 
Raa 
h 补缺 MYCASLIB.NNET OUT 
> 鹏 无 监督 学 习 指定 评分 代码 的 路 径 名 称 : 
4B 受 监督 学 习 口 保存 评分 代码 
bie Sort 文件 各 : 


li} Logistic 回 归 
at |score.sas 


文件 夹 : 


/home/sasdemo 


1.014953 
0.214467 1.016332 
0.093413 0.955588 
0.116149 | 2028533 0.875625 
0.191135 | 2015558 j! 0.752703 


0.153781 | 1.992326 0.831191 


0.163104 | 1.957902 19.85137 | 1,040926 
0.228822 | 1.879245 31.99375 | 1.572511 


0.279803 | 1.843930 37.97972 | 1.833848 
0.177556 | 1.743431 5751712 | 2.720976 | 0.613109 


0.195447 | 1.747049 I 2.461314 | 0.579937 


0.185863 | 1.721411 2.452697 | 0.621108 
0.543117 | 1.676510 2.848490 | 0.730015 
0.165821 | 1.653871 2853696 | 0.728285 


0.139420 | 1.652265 2.914592 | 0.738761 


0.207446 | 1.611521 | 0.171730 3.166714 | 0.816035 
0.321460 | 1.632729 | 0.177137 2.887089 | 0.753554 
0.124640 | 1.620069 | 0.175592 7 2951619 | 0771541 
0.121536 | 1615540 | 0.175077 2.984358 | 0.700548 
0.101487 | 1592051 | 0.174820 3.113679 | 0.814915 


0.241614 | 1.595727 | 0.174820 7 3.069743 | 0.799878 


0.152768 | 1.582207 | 0.173275 3.151431 | 0816107 
0.121246 | 1.583340 | 0.172760 3.128070 | 0.812096 
0.104114 0.173018 3.105070 | 0.805270 
0.100270 0.171730 3.087523 | 0.798264 {v 
0.104689 0.171988, 3.139264 | 0.805745 


Oea 用 户 :sasdemo 


癌 丫 四 四 四 网 因 四 四 回回 因 四 四 回回 加 四 问 加 交加 网 网 网 风 国 


图 2.17 神经 网 络 任务 向 导 运行 结果 


(4) 保存 应 用 程序 


接 下 来 检查 建 模 结果 ， 可 使 用 可 视 化 图 形 进行 展示 ， 这 里 不 再 描述 。 为 了 便于 解释 代码 和 熟悉 应 用 SAs studio 的 功能 ， 这 里 把 一 个 完整 的 建 模 过 程 分 解 成 多 个 步骤 。 实 际 开 发 SAs 应 用 时 会 将 所 有 步骤 
生成 的 代码 集成 在 一 个 程序 中 。SAS 应 用 开发 完成 之 后 ， 可 将 该 SAS 应 用 保存 。 在 工作 区 中 选择 应 用 程序 “程序 1”， 点 击 保存 图 标 (如 图 2.18 所 示 ) ， 将 应 用 程序 保存 在 /home/sasdemo 的 文件 
Load_HMEQ.sas 文 件 中 。“ 补 缺 ” 和 “神经 网 络 ”应 用 程序 都 可 以 保存 。 


SAS Studio 
》 服务 器 文件 和 文件 夹 区 "程序 1 x | Ba "补缺 x 
》 任 务 和 实用 程序 (rem | fee | a 


4 KBR 数据 输出 
DRIE Ss 4 输出 数据 集 


4 Pe 我 的 代码 段 以 下 数据 集 名 称 必 须 使 用 CAS 引擎 逻辑 库 引 用 
By HMEQ 补 缺 名 : 


B HMEQ 神 经 网 络 创建 输出 数据 集 


4B 代码 段 “数据 集 名 称 : 

4 BG Cloud Analytic Services | MYCASLIB.HMEQ_IMP | 浏览 | 
dh 包括 输入 数据 集中 的 变星: 
reas © 分 析 中 使 用 的 变量 
B 列 出 cas 会 话 选项 ese 

agi 图 选 定 变量 


图 2.18 SAS Studio 中 保存 程序 


还 可 以 将 代码 保存 到 “我 的 代码 段 ”。 在 “Load_HMEQ.sas” 应 用 的 代码 区 点 击 右键 ， 选择“ 添加 至 我 的 代码 段 ”， 如 图 2.19 所 示 。 在 弹出 的 代码 段 名 称 中 输入 “Load_HMEQ”， 并 保存 ， 如 图 2.19 
所 示 。 


SAS Studio 
服务 器 文件 和 文件 夹 


> 任务 和 实用 程序 代码 日 志 结果 i 
4 代码 段 KO BRB B29) Sf h & | Ox MH MEK 


] [RR RR RRR A RARER AEE E EERE EER ERE EERE EERE EAE ERE ER ER ERE EER EEE EERE EERE ERE REREREREEEE | 
t üRIEO 2/* Start a session named mySession using the existing CAS server connection */ 
4 Be 我 的 代码 段 3/* while allowing override of caslib, timeout (in seconds), and locale */ 
z 4/* defaults. */ 
BS HMEQ 补 缺 站 

—— 或 选 定 代码 (F3 

B HMEQ 神 经 网 络 6 运行 全 部 或 选 定 代码 (F3) 
i = ibe =" ny: 
4B 代码 段 a" mySession sessopts=(caslib=casuser en_US"); 
4 BG Cloud Analytic Services Q [EERE KEKAERE RAE REA EERERERAERERERREREES RRRAAAAA EERE EERE / 
B 新 建 CAS 会 话 10/* This is the first in a series of exi By lemonstrate the =p 
` 11/* use of SAS Viya Data Mining and Macl ures to compose */ 

B Witt CAS 会 话 7 ed s 

121//+ program that follows a standard mi ess of 2/ 


tttttttttttttttttt**/ 


B 重新 连接 cas 会 话 13 /+ loading data, 粘贴 */ 


B 终止 cas 会 话 14 /+ preparing the data, 转 至 行 *y 

‘ 15//* building models, and 2/ 
[B 列 出 Cas 会 话 选项 16//* assessing and comparing those mod¢ 格式 化 代码 */ 
B SAS 客户 端 列 出 CAS 会 笑 17 /* 添加 至 我 的 代码 段 */ 
B AHP ID 列 出 cas 会 话 | 18 /* The programs are written to execute y distributed *y 
D 为 路 径 新 建 CAS WHEE i| 19/* computing engine in the SAS Viya eny 转 至 工具 栏 */ 


; ao: 转 至 日 志 
B 为 CAS 逻辑 库 生 成 SAS 逻辑 库 引用 名 21/* This first example showcases how to o CAS */ 


` EEE EKER EEE EEE EEE EEE KEKE EEE EERE 证 ERE EERE EEE EEE EEE 
D 将 数据 加 载 至 CAS 逻辑 库 / _ / 


图 2.19 SAS Studio 中 添加 至 我 的 代码 段 


在 SAS Studio 的 左 侧 导 航 栏 中 点 击 代 码 段 ， 在 代码 段 面板 中 展开 “我 的 代码 段 ”， 可 以 看 到 Load_HMEQ 代 码 段 ， 如 图 2.20 所 示 。 
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SAS Studio 


> 服务 器 文件 和 文件 夹 
> 任务 和 实用 程序 
4 代码 段 


[$ 


woh EY 
4 Pe 我 的 代码 段 
E Load_HMEQ 
488 代码 段 
4 BÊ Cloud Analytic Services 


进行 同样 的 操作 ， 也 可 将 应 


4. 后 台 提 交 SAS 程 序 运行 


B 新 建 CAS 会 话 


图 2.20 SAS Studio 中 添加 的 代码 段 


程序 “补缺 ”和 “神经 网 络 ” 添 加 到 我 的 代码 段 。 


在 导航 栏 中 选择 “服务 器 文件 和 文件 夹 ”， 展 开 “文件 ”， 并 导航 到 /home/sasdemo/Load_HMEQ.sas 文 件 ， 右 键 点 击 该 文件 ， 在 弹出 菜单 中 选择 “后 台 提交 ”。 运 行 结束 后 会 在 SAs 程 序 所 在 的 目录 


下 生成 日 志和 结果 文件 ， 如 区 


2.2171E 


图 


2.22 所 示 。 


SAS Studio 


4 服务 器 文件 和 文件 夹 


Ce: bth Ff EO 
> E Downloads 


> B Music 
> B Pictures 
> i Public 


> MM sasuser.viya 


> fi Templates 
> Rg Videos 
[23 Load_HMEQ.sas 
> Ba lib 打开 
> By Lib64 新 建 
图 lost+found 以 文本 方式 查看 文件 
> Be media 后 台 提 交 


fan 
Ba misc 添加 至 我 的 任务 


2.21 SAS Studio 中 后 台 提 交 程 序 


SAS” Studio 


4 服务 器 文件 和 文件 夹 


路 ~ 面世 全 GB 
> J Documents 
> Bi Downloads 
> B Music 
> B Pictures 
> fig Public 


图 sasuser.viya 

> # Templates 

> i Videos 
[@ Load_HMEQ.html 
国 Load_HMEQ.log 
(43 Load_HMEQ.sas 


2.22 SAS Studio 中 后 台 提 交 程 序 的 运行 结果 


2.1.3 “” 批 处 理 、 交 互 式 行 模式 及 如 何 执行 操作 系统 命令 


大 多 数 情况 下 ，SAS 程 序 保存 在 外 部 操作 系统 文件 中 ， 这 时 可 以 不 通过 SAS Studio 而 是 通过 非 交 互 模式 提交 该 文件 执行 ， 还 可 将 运行 SAS 程 序 的 命令 写 入 到 批 处 理 文件 中 提交 执行 。 批 处 理 或 交互 式 行 
模式 的 SAS 应 用 如 果 需 要 访问 CAS 服 务 器 时 ， 则 需要 配置 AUTHINFO 文 件 提供 到 CAS 服 务 器 的 认证 。 


1.SAS 命 令 行 


使 用 非 交 互 模式 执行 保存 在 外 部 文件 中 的 SAS 程 序 时 ，SAS 将 执行 该 文件 中 的 程序 ， 并 将 日 志和 输出 写 入 到 指定 文件 中 。 该 外 部 文件 中 的 SAS 程 序 执行 完成 后 SAS 会 自动 退出 。 非 交互 模式 下 使 用 SAS 命 
令 行 执行 外 部 文件 中 的 SAS 程 序 语句 的 示例 如 下 。 该 命令 必须 在 SAS Viya 应 用 组 件 所 在 的 机 器 上 运行 。 


选项 -sysin” 用 于 指定 SAS 程 序 语句 所 在 的 文件 。 当 要 执行 的 SAS 程 序 语句 文件 紧 接着 sas 命 令 时 ， 该 选项 可 以 省 略 。“-log” 用 于 指定 输出 日 志文 件 ，“-print” 指 定 执行 输出 文件 。test.sas 文 件 的 
语句 执行 完成 之 后 ， 该 命令 行 返回 。 


在 命令 行 后 添加 符号 “&”， 可 将 该 命令 放 入 后 台 运 行 : 


#/opt/sas/viya/home/SASFoundation/sas -sysin /opt/sas/code/test.sas -log /opt/sas/logs/test.log -print /opt/sas/lst/test.1lst & 


2. 批 处 理 模式 


将 上 面 的 一 个 或 多 个 非 交 互 模式 中 的 命令 写 到 批 处 理 脚 本 里 ， 并 保存 在 批 处 理 .sh 文件 中 ， 然 后 提交 执行 该 批 处 理 文件 。 以 文件 sasjob.sh 的 内 容 为 例 ， 运 行 该 文件 时 会 提交 两 个 SAS 程 序 执行 test.sas 和 
test2.sas。 昌 然 第 一 个 sas 命 令 后 带 有 &， 将 提交 后 台 运 行 ， 但 因为 有 wait 命 令 ， 所 以 会 等 待 这 个 sas 命 令 执 行 完成 之 后 才 执 行 sleep 命 令 ， 休 眠 15s 后 则 执行 第 二 个 sas 命 令 : 


#!/bin/sh 

cd /opt/sas 

/opt/sas/viya/home/SASFoundation/sas /opt/sas/code/test.sas -log /opt/sas/logs/test.log -print /opt/sas/lst/test.lst & 
wait 

sleep 15 

/opt/sas/viya/home/SASFoundation/sas /opt/sas/code/test2.sas -log /opt/sas/logs/test2.log -print /opt/sas/lst/test2.lst & 


提交 该 批 处 理 文件 的 命令 如 下 : 


# ./sasjob.sh 


如 果 不 需要 等 待 第 一 个 命令 执行 完成 ， 则 sasjob.sh 文 件 中 不 需要 wait 命 令 。 此 时 ， 第 一 个 sas 命 令 提交 到 后 台 运 行 之 后 ， 休 有 眠 15s， 然 后 直接 提交 第 二 个 sas 命 令 在 后 台 运 行 ， 无 论 第 一 个 sas 命 令 是 否 运 
行 结束 。 


当 使 用 调度 软件 或 操作 系统 调度 命令 对 SAS 作 业 进 行 预 定 执行 时 ， 通 常 是 使 用 该 模式 。 这 样 可 以 将 执行 时 间 较 长 的 SAS 作 业 放 在 晚间 或 其 他 预订 时 间 执行 ， 或 者 根据 业务 需要 定期 自动 执行 。 在 SAS 
Viya 平 台 解决 方案 中 这 种 模式 也 经 常 使 用 ，SAS Viya 也 提供 了 与 第 三 方 调度 软件 和 操作 系统 调度 服务 的 集成 。 


3. 交 互 式 行 模式 


该 模式 是 一 种 较 少 使 用 的 模式 ， 通 常用 于 快速 验证 SAS 部 署 的 一 些 功能 ,例如 数据 库 连 接 等 。 但 作为 SAS 支 持 的 启动 模式 ， 这 里 也 会 对 其 做 一 个 简单 地 介绍 。 在 交互 行 模式 下 ,顺序 地 输入 程序 语句 ， 所 
输入 的 DATA 步 或 PROC 步 在 遇 到 RUN 语 句 、QUIT 语 句 、 另 一 个 DATA 步 或 PROC 步 ,或 者 ENDSAS 语 句 时 会 提交 执行 。 同 时 随 着 DATA 步 或 PROC 步 的 提交 ， 这 些 程序 语句 的 日 志和 输出 (如 果 有 输出 ) 也 
会 立即 显示 。 在 SAS Viya 中 启动 交互 式 行 命令 模式 的 SAS 会 话 命令 示例 如 下 。 该 命令 后 面 还 可 以 接 其 他 系统 选项 或 使 用 -CONFIG 选 项 指定 SAS 配 置 文 件 。 


#/opt/sas/viya/home/SASFoundation/sas 


按 EOF 键 (CTRL+D) 或 提交 ENDSAS 语 句 结束 交互 式 行 命令 模式 的 SAS 会 话 : 


5? endsas; 


4 操作 系统 命令 


{ESAS Viya 中 ，SAS 客 户 端 会 话 可 以 执行 操作 系统 命令 。 在 SAS 客 户 端 会 话 中 执行 异步 任务 的 语句 为 SYSTASK， 异 步 任务 独立 运行 。CALL SYSTEM 例 程 、%SYSEXEC 宏 程序 和 X 语 句 则 可 以 同步 执行 
Linux 命 令 或 任务 。 同 步 任务 与 异步 任务 的 差异 在 于 ， 当 前 SAS 客 户 端 会 话 在 提交 同步 任务 之 后 必须 等 到 该 任务 执行 完毕 才 可 以 接受 其 他 任务 。 


CALL SYSTEM 例 程 在 DATA 步 中 使 用 ，%SYSEXEC 在 宏 定义 中 使 用 ，X 语 句 可 在 DATA 步 或 宏 定义 之 外 使 用 。 在 批 处 理 或 交互 式 行 模式 下 ， 使 用 X 语 句 和 在 DATA 步 中 使 用 CALL SYSTEM 调 用 Linux 操 作 
系统 命令 pwd 和 Is-| 的 SAS 代 码 分 别 如 下 : 


X 'pwd;ls -1;' 


data _null ; 
call system ('pwd;ls -1;'); 
run; 


2.2 SAS Viya 中 开发 应 用 的 基本 概念 


登录 SAS Studio 时 会 自动 创建 AS 客户 端 会 话 ， 有 些 代码 会 直接 在 SAS 客 户 端 会 话 中 执行 ， 然 而 如 果 要 利用 到 CAS 的 高 性 能 计算 能 力 ， 则 需要 在 CAS 会 话 中 执行 。 本 节 将 主要 介绍 在 SAS Viya 中 开发 应 
的 基本 概念 ， 从 CAS 会 话 及 其 创建 和 管理 开始 ， 到 SAS Viya 中 的 数据 访问 、CAS 语 言 ， 再 到 SAS 选 项 。 


2.2.1 CAS 会 话 


在 第 1 章 介绍 SAS Viya 的 架构 和 组 成 时 ， 大 家 就 已 经 了 解 到 CAS 会 话 的 概念 ， 也 理解 了 应 用 程序 与 CAS 服 务 器 通信 和 利用 CAS 服 务 器 的 资源 必须 通过 CAS 会 话 。 这 里 主要 从 应 用 开发 的 角度 讨论 CAS 会 话 
的 创建 和 管理 。 


1. 启 动 CAS 会 话 


启动 CAS 会 话 的 CAS 语 句 的 基本 语法 如 下 : 


CAS 会 话 名 <HOST=cas 控 制 器 主机 名 > <PORT=CAS 端 口号 >; 


“会 话 名 ”指定 要 创建 的 CAS 会 话 的 名 称 。 为 1~256 个 字符 的 有 效 的 SAS 名 称 ， 会 话 名 是 大 小 写 敏感 的 。 
© HOST= 选 项 指定 CAS 控 制 器 主机 名 。 


+ PORT= 选 项 指定 CAS 服 务 器 控制 器 监听 客户 端 连接 的 端口 号 。 该 端口 号 是 在 CAS 配 置 文件 中 指定 的 ， 在 CAS 控 制 器 服务 启动 的 时 候 生 效 。 


下 面 的 示例 代码 使 用 带 HOST= 和 PORT= 选 项 的 CAS 语 句 启动 CAS 会 话 : 


cas mysess host="cashost1" port=5570; 


在 SAS studio 中 提交 该 代码 ， 日 志 如 下 : 


NOTE: The session mysess connected successfully to Cloud Analytic Services cashostl using port 5570. The UUID is 880b851c-0a5b-1340-b3db-9c8725f222fa. 
The user is sasdemo and the default CASLIB is CASUSER(sasdemo) . 

NOTE: The SAS option SESSREF was updated with the value mysess. 

NOTE: The SAS macro _SESSREF_ was updated with the value mysess. 

NOTE: The session is using 7 workers. 


从 日 志 中 可 以 看 到 ， 在 启动 会 话 mysess 时 ，SAs 为 该 会 话 生 成 了 唯一 标识 UUID。 该 唯一 标识 可 在 后 续 需 要 指明 CAS 会 话 的 操作 中 通过 选项 UUID= 来 指明 。SAS 还 自动 创建 了 CAs 逻 辑 库 CASUSER， 并 
将 SAS 选 项 SESSREF 和 宏 变量 SESSREF 的 值 更 新 为 mysess。 


如 果 CAs 语 句 中 省 略 了 HOST= 和 PORT= 选 项 ， 那 么 CAS 语 句 还 可 以 通过 系统 选项 CASHOST= 和 CASPORT= 的 值 ， 或 者 与 宏 变 量 CAsHOST 和 _CASPORT 的 值 对 应 的 CAS 控 制 器 的 主机 名 和 端口 来 创 
建 CAS 会 话 。 


(1) _CASHOST 和 _CASPORT 宏 变 量 


SAS Viya 还 提供 了 _CASHOST_ 和 _CASPORT 宏 变 量 , 分 别 用 于 指定 要 启动 CAS 会 话 的 控制 器 主机 和 端口 ， 示 例如 下 : 


slet _cashost_=cashost1; 
%let _casport_=5570; 
cas mysess; 


宏 变量 CASHOST 和 _CASPORT 的 值 会 分 别 随 系统 选项 CASHOST= 和 CASPORT= 的 变化 而 变化 。 


(2) CASHOST= 和 CASPORT= 系 统 选项 


可 以 先 通 过 OPTIONS 语 句 设置 CASHOST= 和 CASPORT= 系 统 选 项 指定 要 启动 CAS 会 话 的 控制 器 主机 和 端口 ， 示 例如 下 : 


options cashost="cashost1" casport=5570; 
cas mysess; 


系统 选项 CASHOST= 和 CASPORT= 的 值 不 会 随 宏 变 量 CASHOST_ 和 _CASPORT 的 值 的 变化 而 变化 。 


注意 ”用户 可 能 会 发 现 ， 没 有 显 式 地 设置 系统 选项 CASHOST= 和 CASPORT=， 以 及 宏 变量 CASHOST_ 和 _CASPORT_， 代码“cas mysess; ”仍然 可 以 运行 成 功 。 这 是 因为 在 AUTOEXEC 文 件 中 调用 了 
OPTIONS 语 和 句 指定 了 系统 选项 CASHOST= 和 CASPORT= 的 值 。 请 参考 第 2.2.4 节 关于 AUTOEXEC 文 件 的 介绍 。 


(3) SESSREF= 选 项 和 _SESSREF 宏 变量 


SESSREF 选 项 和 _SESSREF 宏 变 量 会 自动 存储 活动 CAS 会 话 的 会 话 名 。 一 个 客户 端 会 话 可 调用 多 个 CAS 语 句 启动 多 个 CAS 会 话 ， 最 近 启动 的 CAS 会 话 为 活动 CAS 会 话 ， 该 会 话 名 保存 在 选项 SESSREF= 和 
宏 变 量 SESSREF_ 中 ， 示 例如 下 : 


cas mysessl host="cashost1" port=5570; 
cas mysess2 host="cashost1" port=5570; 


运行 日 志 如 图 2.23 所 示 。 


OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK; 


cas mysess1 host="“cashost" port=5570; 
The session MYSESS1 connected successfully to CAS server cashost using port 5570. The UUID is 
£5625eac -8b0a-4d41-8cc6-199bf21ef3e2. The user is sasdemo and the default CASLIB is CASUSER(sasdemo). 
The SAS option SESSREF was updated with the value MYSESS1. 
The SAS macro _SESSREF_ was updated with the value MYSESS1. 


The session is using 9 workers. 

cas mysess2 host="castest" port=5570; 
The session MYSESS2 connected successfully to CAS server castest using port 5570. The UUID is 
7a0e3afb-alde-664b-870e-a425210a56bf. The user is sasdemo and the default CASLIB is CASUSER(sasdemo). 
The SAS option SESSREF was updated with the value MYSESS2. 
The SAS macro _SESSREF_ was updated with the value MYSESS2. 
The session is using 9 workers. 


图 2.23 ”活动 CAS 会 话 


可 以 看 到 ， 执 行 完 上 述 两 行 代码 之 后 ， 选 项 SESSREF 和 宏 SESSREF 被 更 新 为 第 二 行 代 码 创建 的 CAS 会 话 名 MYSESS2。 


2. 定 义 CAS 会 话 属性 


在 启动 CAS 会 话 时 还 可 以 通过 CAS 语 句 的 SESSOPT= 选 项 指定 CAS 会 话 的 属性 ， 在 CAS 会 话 启动 后 也 可 通过 带 SESSOPT= 选 项 的 CAS 语 句 修改 CAS 会 话 的 属性 ， 其 基本 格式 如 下 : 


CAS cas 会 话 名 <CAS 语 句 选 项 > SESSOPT= (cas 会 话 选项 <cas 会 话 选项 > .…) ; 


“会 话 名 ”指定 要 启动 或 修改 的 CAS 会 话 名 。 
+ “CAS 语 自选 项 ”为 可 选 值 ， 指 定 CAS 会 话 的 一 些 参数 ， 如 HOST= 和 PORT= 选 项 。 


“CAS 会 话 选项 ”为 要 应 用 于 将 要 启动 或 修改 的 CAS 会 话 的 会 话 选项 ， 可 指定 多 个 会 话 选项 。 会 话 选项 定义 或 修改 的 属性 包括 CAS 会 话 超时 时 间 、CAS 中 执行 程序 代码 的 方式 、 该 会 话 的 活动 CAS 逻 辑 
库 和 表 的 设置 、CAS 会 话 的 工作 节点 数 等 。 可 支持 的 CAS 会 话 选项 可 参考 SAS 选 项 小 节 的 介绍 。 有 些 选项 只 能 在 启动 CAS 会 话 时 指定 ， 当 CAS 会 话 启 动 后 不 可 修改 ， 例 如 CAS 会 话 的 工作 节点 数 。 


下 面 的 代码 中 ， 第 三 行 指定 会 话 mysess 的 超时 时 间 (TIMEOUT= 选 项 ) 为 1800 秒 ， 并 将 该 会 话 的 活动 CAS 逻 辑 库 (CASLIB= 选 项 ) 指定 为 hps: 


cas mysess; 


caslib hps datasource = (srctype = "path") path = "/opt/sas/hps"; 
cas mysess sessopts=(timeout=1800 caslib=hps) ; 


3. 显 示 CAS 服 务 器 和 CAS 会 话 属性 


CAS 语 句 中 还 可 以 通过 指定 选项 列 出 CAS 会 话 的 CAS 服 务 器 、CAS 会 话 自身 、 所 执行 的 ACTION 等 信息 。 其 基本 语法 如 下 : 


CAS cas 会 话 名 < 选项 >; 


表 2.2 列 出 了 CAS 语 句 中 可 以 显示 CAS 服 务 器 和 CAS 会 话 信息 的 选项 。 


表 2.2 显示 CAS 会 话 信息 的 CAS 语 和 句 选项 


选项 描述 
LIST 日 志 中 显示 会 话 信 息 
LISTABOUT 日 志 中 显示 CAS 服务 器 信息 
LISTSERVERSTARTOPTS 日 志 中 显示 CAS 服务 器 启动 选项 
LISTHISTORY 日 志 中 显示 会 话 执行 的 最 近 ACTION 历史 
LISTSESSTIONS 日 志 中 显示 当前 用 户 的 所 有 会 话 信息 
LISTSESSOPTS 日 志 中 显示 会 话 的 所 有 选项 


例如 ， 显 示 所 有 CAs 会 话 信息 的 代码 如 下 : 


cas mysess listsessions; 


显示 指定 CAS 会 话 属性 信息 的 代码 如 下 : 


cas mysess listsessopts; 


4. 断 开 、 重 连 和 终止 CAS 会 话 


CAS 会 话 所 处 的 状态 包括 活动 、 断 开 和 终止 ， 三 个 状态 的 转化 如 图 2.24 所 示 。 


TERMINATE/CLEAR 


图 2.24 ”CAS 会 话 状态 转换 


无 客户 端 连 接 到 CAS 会 话 时 ，CAS 会 话 状态 转换 为 断 开 状态 。 通 过 带 DISCONNECT 选 项 的 CAS 语 句 可 以 断 开 当前 客户 端 到 指定 CAS 会 话 的 连接 。 


示例 如 下 : 


cas mysess disconnect; 


若 CAS 会 话 被 所 有 客户 端 断 开 了 ， 那 么 一 定时 间 之 后 (图 2.24 中 CA3s 会 话 状态 从 断 开 到 终止 ) ， 该 CAS 会 话 会 自动 终止 ， 该 时 间 称 为 CAS 会 话 的 超时 时 间 ， 可 通过 TIMEOUT= 选 项 指定 ， 单 位 是 秒 ， 默 
认 值 为 60 ( 秒 ) 。 


变 会 话 mysess 的 超时 时 间 为 30 分 钟 〈( 即 1800 秒 ) ， 代 码 如 下 : 


cas mysess sessopts=(timeout=1800) ; 


在 超时 时 间 内 ， 需 要 时 可 以 通过 RECONNECT 选 项 重新 连接 断 开 的 CAS 会 话 。 


重 连 断 开 的 CAS 会 话 mysess 的 示例 代码 如 下 : 


cas mysess reconnect; 


会 话 重 连 成 功 之 后 ， 该 会 话 中 的 所 有 元 素 ， 包 括 CAS 逻 辑 库 、CAS 引 擎 逻辑 库 ， 以 及 CAS 表 等 都 会 存在 。 


CAS 会 话 断 开 之 后 ， 除 了 超时 自动 终止 外 ， 还 可 以 通过 TERMINITE (或 CLEAR) 选项 终止 指定 的 CAS 会 话 。 


终止 CAS 会 话 mysess 的 示例 代码 如 下 : 


cas mysess terminate; 


cas mysess clear; 


作为 一 个 良好 习惯 ， 开 发 人 员 应 在 使 用 完 CAS 会 话 后 终止 该 会 话 。 


5. 连 接 到 其 他 SAS 客 户 端 启动 的 CAS 会 话 


连接 到 其 他 CAS 客 户 端 启动 的 CAS 会 话 ， 与 连接 到 终止 的 CAS 会 话 要 求 一 样 ， 必 须 在 CAS 语 句 中 指定 CAS 会 话 名 和 会 话 的 UUID。 其 基本 形式 如 下 : 


CAS CAS 会 访 名 UUID=< 会 话 uuigd>; 


其 中 UUID= 选 项 指定 要 连接 的 CAS 会 话 标识 ， 其 示例 如 下 : 


cas mysess uuid="ca683ddf-fel8-3c48-a04e-45718220976d"; 


6.CAS 语 句 执行 状态 


第 一 次 执行 CAs 语 句 时 会 创建 全 局 宏 变量 CASSTMTERR。 当 CAS 语 句 执行 成 功 时， 该 宏 变量 的 值 为 0。 如 果 发 生 错误 ， 则 该 宏 变 量 的 值 为 2。 之 后 再 执行 CAS 语 句 ， 该 宏 变 量 的 值 就 会 更 新 为 该 CAS 语 名 
执行 时 的 状态 。 可 在 SAS 程 序 中 使 用 宏 变 量 CASSTMTERR 来 测试 最 近 的 CAS 语 句 执行 的 状态 。 


以 下 代码 在 CAS 语 句 启动 CAS 会 话 mysess 成 功 时 ， 将 数据 sashelp、cars 加 载 到 启动 的 CAS 会 话 。 当 CAS 语 句 执行 失败 时 ， 则 不 执行 加 载 数 据 的 代码 : 


cas mysess; 


Sif &CASSTMTERR eq 0 %then %do; 
proc casutil; 
load data=sashelp.cars; 
quit; 
send; 


提交 代码 执行 ， 产 生 的 日 志 如 图 2.25 所 示 。 第 一 行 CAS 语 句 执行 成 功 ， 将 宏 变 量 CASSTMTERR 的 值 设置 为 0%0， 因 此 在 %if 和 %end 之 间 的 CASUTIL 过 程 也 得 到 了 执行 。 


57 cas mysess; 
NOTE: The session MYSESS connected successfully to CAS server BRDVM@920 using port 5570. The UUID is 
3332df83-5ce2-ef48-aee7-b7e5c4c4c7d4. The user is sasdemo and the default CASLIB is CASUSER(sasdemo). 
NOTE: The SAS option SESSREF was updated with the value MYSESS. 
NOTE: The SAS macro _SESSREF_ was updated with the value MYSESS. 
NOTE: The session is using @ workers. 
58 
59 %if &CASSTMTERR eq @ %then do; 
60 
60 ! proc casutil; 
The UUID *3332df83-5ce2-ef48-aee7-b7e5c4c4c7d4" is connected using session MYSESS. 
61 
61 ! load data=sashelp.cars; 
SASHELP.CARS was successfully added to the “CASUSER(sasdemo)" caslib as "CARS". 
62 quit; 


“PROCEDURE CASUTIL" 所 用 时 间 〈 总 处 理 时 间 ) : 


实际 时 间 0.01 秒 
CPU 时 间 9.61 种 


%end; 


图 2.25 CASH 4) FUT iE A A 


2.2.2 ”数据 访问 


CAS 通 过 CAs 逻 辑 库 访问 数据 ， 数 据 可 以 是 文件 系统 中 的 文件 、 数 据 库 中 的 表 或 文件 ， 也 可 以 是 加 载 到 CAs 内 存 里 的 表 。CAs 表 的 访问 必须 通过 CAs 逻 辑 库 或 CAs 引 警 的 SAS 逻 辑 库 来 完成 。 而 SAS 客 户 


端 会 话 访问 数据 则 主要 是 通过 SAs 逻 辑 库 和 SAS 数 据 集 来 完成 。 本 节 主 要 介绍 数据 访问 相关 的 概念 。 


1.CAS 逻 辑 库 


CAS 逻 辑 库 (CASLIB) 是 CASs 用 来 存放 数据 表 、 数 据 表 的 访问 控制 信息 和 数据 表 对 应 数据 源 信息 的 内 存 空间 。CAS 罗 辑 库 提供 了 内 存 表 的 访问 途径 ，CAs 中 对 数据 的 所 有 操作 都 可 通过 CAs 逻 辑 库 来 执 


(1) 个 人 、 预 定义 和 自 定义 CAS 逻 辑 库 


CAS 逻 辑 库 可 以 是 CAS 会 话 启动 时 为 该 用 户 自动 创建 的 ， 也 可 以 是 由 数据 管理 员 预 先 定义 的 ， 或 者 是 由 用 户 自行 定义 的 。 


“ 个 人 CAS 逻 辑 库 : 它 是 配置 CAS 服 务 器 时 的 必 选 属性 。 用 户 调用 CAS 语 句 启 动 会 话 时 ， 会 自动 创建 名 称 为 CASUSER 的 个 人 CAS 逻 辑 库 ， 该 远 辑 库 是 全 局 范围 的 ， 被 该 用 户 的 所 有 会 话 所 共用 。 用 户 可 以 
从 自己 启动 的 任何 会 话 中 访问 CASUSER 中 的 文件 和 内 存 表 。 这 些 文件 和 内 存 表 是 用 户 个 人 私有 的 ， 仅 有 用 户 自己 可 以 访问 。 


“ 预定 义 CAS 还 辑 库 : 由 数据 管理 员 定 义 和 管 理 ， 并 具有 全 局 范围 。 通 常 为 经 常 使 用 的 数据 源 预先 定义 CAS 逻 辑 库 。 此 类 CAS 这 辑 库 的 数据 访问 控制 由 管理 员 设 置 ， 并 由 管理 员 定 义 哪些 用 户 可 以 使 用 。 


- MP B® CASE AEE: 用 户 可 使 用 CASLIB 语 句 定义 CAS 轴 辑 库 。 可 定义 CAS 逻 辑 库 的 用 户 必须 是 数据 管理 员 或 已 经 被 授予 了 创建 会 话 CAS 逻 辑 库 的 权限 。 该 类 CAS 带 辑 库 通常 用 于 即席 数据 访问 ， 且 


这 些 即 席 数 据 访问 不 需要 被 所 有 用 户 访问 。 


(2) CAS 逻 辑 库 作 用 域 


CAS 逻 辑 库 的 作用 域 有 全 局 范围 和 会 话 范围 之 分 。CAS 逮 辑 库 也 依 此 划分 为 全 局 CAS 罗 辑 库 与 会 话 CAs 逻 辑 库 ， 如 图 2.26 所 示 。 


CAS 服务 器 


CAS 会 话 1 
会 话 A 


CASLIB 会 话 CASLIB 
CASLIB 


图 2.26 


全 局 CAS 逻 辑 库 可 以 被 所 有 会 话 使 用 。 个 人 CAS 逻 辑 库 CASUSER 在 用 户 调用 CAS 语 句 启动 CAS 会 话 时 创建 ， 对 该 | 


话 ， 个 人 CAS 风 辑 库 对 CAS 会 话 1 和 CAS 会 话 2 同时 可 见 。 通 过 CASLIB 语 句 创建 的 CAS 逻 辑 库 ( 即 


时 ， 可 使 用 会 话 范围 的 CAS 逻 辑 库 。 


预定 义 CAs 逻 辑 库 则 对 授权 了 的 所 有 用 户 的 所 有 会 话 均 可 用 。 预 定义 CAS 罗 辑 库 名 在 CAS 服 务 器 内 跨 所 有 会 话 唯一 。 当 多 个 


CAS 会 话 2 


全 局 
CASLIB 


全 局 


CASLIB 


会 话 CASLIB 
CASLIB 


CAS 逻 辑 库 作 用 域 


CAS 会 话 3 


个 大 会 话 
CASLIB | CASLIB 
会 话 


CASLIB 


户 的 所 有 会 话 可 上 


如 图 2.26 所 示 ，CAS 会 话 1 和 CAS 会 话 


定义 CAS 逻 辑 库 ) 默认 为 会 话 范围 
内 必须 是 唯一 的 。 如 果 会 话 CAS 逻 辐 库 的 引用 名 与 全 局 CAS 逻 辑 库 的 引用 名 一 样 ， 那 么 后 续 代码 中 使 用 到 该 引用 名 时 ， 会 使 用 会 话 CAS 逻 辑 库 。 只 有 当前 用 户 需要 访问 CAS 逻 辑 库 而 不 必 与 


2 是 同一 个 用 户 创建 的 会 


， 仅 存在 于 添加 CAS 逻 辑 库 的 会 话 中 。 会 话 CAs 逻 辑 库 的 引用 名 在 会 话 


他 用 户 共享 


户 需要 访问 相同 的 数据 时 ， 可 使 用 具有 全 局 范围 


的 预定 义 CAs 逻 辑 库 。 


带 GLOBAL 选 项 的 CASLIB 语 句 可 创建 全 局 范围 的 CAS 逻 辑 库 。CASUTIL 过 程 、DATA 步 或 PROC CAS 的 PROMOTE ACTIION 可 将 表 从 会 话 CAS 逻 辑 库 提升 到 全 局 CAS 逻 辑 库 。 


(3) 创建 CAs 逻 辑 库 


CAs 罗 辑 库 可 通过 CASLIB 语 句 来 创建 ， 其 基本 语法 格式 如 下 : 


CASLIB CRAS 罗 辑 库 引 用 名 <SESSREF= 会 话 引 用 > DATASOURCE= (SRCTYPE=" 类 型 " < 数据 源 选 项 >) <PATH=" 路 径 目 录 ">; 


该 语法 的 说 明 具 体 如 下 。 


1) 在 定义 CAS 逻 辑 库 时 需要 指定 CAS 逻 辑 库 引 用 名 。CAS 逻 辑 库 引 用 名 在 会 话 中 必须 是 唯一 的 ， 全 


“ 1~256 个 字符 。 
“ 必须 以 字母 (从 A 到 Z， 大 小 写 均 可 ) 或 下 划 线 “_” 开 始 。 
“ 可 以 是 数字 (0~9) 、 字 母 和 下 划 线 “ ”的 任意 组 合 。 


2) SESSREF= 指 定 该 CAS 逻 辑 库 关 联 的 会 话 名 。 默 认为 最 近 启动 的 CAS 会 话 。 


3) DATASOURCE= 指 定 该 CAs 逻 辑 库 的 数据 源 信息 。 


局 CAs 罗 辑 库 必须 在 该 CAS 服 务 器 的 所 有 会 话 中 都 是 唯一 的 。 其 命名 规范 


体 如 下 。 


4) SRCTYPE= 指 定数 据 源 类 型 ，“ 数 据 源 选 项 ”与 “类 型 ”的 取 值 相关 。 当 “类 型 ”为 CAs 控 制 器 上 的 目录 、HDFS 目 录 或 DNFS 目 录 时 ， 这 类 CASs 罗 辑 库 称 为 基于 路 径 (Path-Based) 的 CAS 逻 辑 


库 ， 其 “数据 源 选项 ”为 是 否 加 密 。 表 2.3 给 出 了 基于 路 径 的 CAS 逻 辑 库 的 类 型 及 示例 。 当 “类 型 ”为 数据 库 时 ， 这 类 CAS 罗 辑 称 为 基于 服务 器 (Server-Based) 的 CAS 逻 辑 库 ， 其 “数据 源 选 项 ”为 数据 库 


上 机、 端口 等 连接 信息 。 表 2.4 给 出 了 基于 数据 源 的 CAS 逻 辑 库 的 定义 示例 。 


5) PATH= 仪 对 基于 路 径 的 CAS 逻 辑 库 有 效 ， 其 指定 具体 的 目录 信息 。 


CAs 语 句 创建 CAs 逻 辑 库 时 会 将 以 上 数据 源 信息 保存 到 内 存 中 。 此 时 ， 为 该 CAs 逻 辑 库 指定 的 目录 或 数据 库 中 的 文件 或 表 不 会 加 载 到 内 存 。 文 件 或 表 的 加 载 将 在 本 书 的 第 3 章 中 进行 介绍 。 


表 2.3 基于 路 径 的 CAS 逻 辑 库 定义 


SRCTYPE 支持 文件 类 型 

DATASOURCE=(SRCTYPE="PATH" 

PATH <ENCRYPTIONPASSWORD=" #% 码 ">) 
PATH=" 路 径 目 录 "; 
DATASOURCE=(SRCTY PE="DNFS" caslib mycsvs datasource= 

DNFS | <ENCRYPTIONPASSWORD=" 密 {9 ">) | (srctype="dnfs") path="/data/| SASHDAT, CSV 


caslib hps datasource = (srctype SASHDAT, SAS7BDAT, 
="path") path = "/hps"; CSV, XLS, XLSX 


PATH=" 路 径 目录 "5 Mycsvfiles/"; 
DATASOURCE=(SRCTY PE="HDFS" caslib mycsvs datasource= 
HDFS <ENCRYPTIONPASSWORD=" 密 码 ">) | (srctype="hdfs") SASHDAT CSV 


PATH=" 路 径 目 录 "3 path="/data/Mycsvfiles/"; 
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SRCTYPE 示例 
caslib hvlib desc="Hadoop Caslib" 
datasource=(srctype="hadoop" dataTransferMode="parallel", hadoopjarpath="/data/cdh54/sdm/ 


HADOOP : i : 
lib" hadoopconfigdir="/data/cdh54/sdm/conf" username="hadoopuser" server="hive01.example.com" 
schema="default"); 
caslib imlib desc="Impala Caslib" datasource=(srctype="impala" username="impalauser" 
IMPALA j 
server="impala01.example.com"); 
caslib publiclasr desc="Lasr Caslib" datasource=(srctype="lasr" server="gridhost.example.com" 
LASR port=10050 signer=https://webserver.example.com/SASLASRAuthorization username="sasdemo" 
password="secret"); 
ODBC caslib odbccaslib desc="ODBC caslib" datasource=(srctype="odbe" username="user1" 
password="password1" database="dbodbc" catalog="*"); 
ORACLE caslib oraclecaslib desc="Oracle Caslib" datasource=(srctype="oracle", username="user1", 
password="password1", path="//machine.Inx.com:5570/exadat"); 
POSTGRES caslib postgrescaslib desc='PostgreSQL Caslib' datasource=(srctype='postgres' username="user1' 
password="'password1' server="postgresServer" database="postgres Database"); 
caslib TDcaslib desc='Teradata Caslib' datasource=(srctype='teradata' username="user |' 
TERADATA 
password='password1' server="teradataServer"); 
(4) 活动 逻辑 库 


当 CAS 语 句 启动 CAS 会 话 时 ，SAS 会 自动 分 配 个 人 逻辑 库 CASUSER， 该 会 话 当前 的 活动 CAS 逻 辑 库 为 CASUSER。 当 CASLIB 语 句 定义 逻辑 库 时 ， 最 后 定义 的 逻辑 库 为 活动 逻辑 库 。 在 CAS 过 程 或 


CASUTIL 过 程 中 省 略 INCASLIB= 或 OUTCASLIB= 选 项 ， 或 者 在 创建 CAs 引 警 逻 辑 库 的 LIBNAME 语 句 中 省 略 CASLIB= 选 项 时 ， 所 使 用 的 逻辑 库 为 当前 活动 CAS 逻 辑 库 。 


(5) 列 出 、 查 看 和 删除 CAS 逻 辑 库 


CASLIB 语 句 还 可 列 出 会 话 可 用 的 所 有 CAs 逻 辑 库 、 查 看 CASs 逻 辑 库 的 设置 和 删除 CAs 罗 辑 库 。 列 出 和 删除 指定 CAS 逻 辑 库 的 基本 语法 如 下 : 


CASLIB cas 罗 辑 库 引 用 名 LIST | DROP <SESSREF= 会 话 引 用 >; 


列 出 和 删除 所 有 CAs 逻 辑 库 的 基本 语法 如 下 : 


CASLIB ALL LIST | DROP <SESSREF= 会 话 引用 >; 


Bh, 
+ CASE EF S| G45 RRM CAS BAER 
“ LIST 和 DROP 选 项 分 别 为 列 出 和 删除 CAS 逻 辑 库 引用 名 。 当 指定 _ALL MA, 7) E AMM CASATE 4 HA CASA | AZ 


"SESSREF= 选 项 指定 操作 使 用 的 CAS 会 话 。 省 略 该 选项 时 ， 默 认 使 用 最 近 启动 的 会 话 。 


在 SAS studio 中 提交 如 下 代码 : 


cas mysess; 
caslib datalib datasource=(srctype="path") path="/opt/sas/data"; 
caslib datalib list; 


最 后 一 行 CASLIB 语 句 的 运行 日 志 如 图 2.27 所 示 。 日 志 中 给 出 了 CAs 逻 辑 库 datalib 的 各 种 属性 。 


61 caslib datalib list; 
NOTE: Session = MYSESS Name = DATALIB 


Type = PATH 
Description = 
Path = /opt/sas/data/ 


Definition = 
Subdirs = No 
Local = Yes 
Active = Yes 
Personal = No 


图 2.27 CASA EB PE 


表 2.5 给 出 了 各 输出 项 的 说 明 。 对 于 datalib 逻 辑 库 ， 其 为 基于 路 径 的 CAS 罗 辑 库 ， 对 应 路 径 为 /opt/sas/data， 子 目录 不 可 访问 ， 作 用 域 为 会 话 范围 ， 是 该 会 话 的 活动 CAs 逻 辑 库 ， 非 个 人 CAs 逻 辑 库 。 


表 2.5 CAS 罗 辑 库 的 信息 输出 项 说 明 


输出 项 说 明 
Type CAS 逻辑 库 的 类 型 。SRCTYPE= 选项 指定 的 CAS 逻辑 库 类 型 
wii _CAS EEIE f = iE LEAT AY DESCRIPTION 选项 值 。 对 f 动 生成 的 CAS WH PES A Til 
定义 值 ， 如 CAS 逻辑 库 CASAUTO 的 描述 为 “Personal File System Caslib 
Path 基于 路 径 的 CAS 逻辑 库 的 目录 
Definition CAS 逻辑 库 中 数据 源 的 定义 ， 对 应 于 CASLIB 语句 中 DATASOURCE= 选项 值 
Subdirs CAS 4 PEAY PATH 目录 的 子 目录 是 否 可 以 访问 
Local 是 否 会 话 本 地 CAS 人 逻辑 库 
Active 是 否 活 动 CAS 逻辑 库 
Personal 是 否 用 户 个 人 CAS 逻辑 库 
2. 文 件 和 CAS 表 


CAS 逻 辑 库 所 关联 的 数据 源 中 的 数据 称 为 文件 。 对 于 基于 路 径 的 CAS 逻 辑 库 ， 文 件 指 CAS 逻 辑 库 PATH= 参 数 指定 的 目录 中 的 文件 ， 例 如 SASHDAT 文 件 、SAS 数 据 集 (SAS7BDAT 文 件 ) 、CSV 文 件 、 
XLS 文件 ， 以 及 XLSX 文 件 等 。 对 于 基于 服务 器 的 CAS 逻 辑 库 ， 仍 然 使 用 文件 这 个 术语 来 表示 CAS 逻 辑 库 的 数据 源 ， 此 时 的 文件 指数 据 库 系 统 中 的 表 (table) ， 以 区 分 该 数据 加 载 到 内 存 后 的 内 存 表 。 


1) 文件 和 CAs 表 


将 文件 加 载 到 CAS 服 务 器 时 ，CAS 服 务 器 中 的 数据 称 为 CAS 表 ， 是 文件 在 内 存 中 的 临时 备份 。CAS 中 针对 数据 的 所 有 操作 都 是 在 CAS 表 上 执行 的 。 在 SAS Viya 中 ，CAS 表 也 可 以 称 为 数据 表 、 内 存 表 或 
表 ， 如 图 2.28 所 示 。 


图 2.28 文件 和 CAS 表 


CAS 逻 辑 库 映 射 了 两 个 数据 存储 空间 ，CAs 表 和 数据 源 的 文件 。CAS 服 务 器 通过 CAS 逻 辑 库 把 CAs 表 与 外 部 数据 源 中 的 文件 联系 起 来 。 既 可 以 通过 CAS 逻 辑 库 直 接 访问 内 存 中 的 数据 ， 又 可 以 通过 CAs 逻 
辑 库 中 所 保存 的 数据 源 连 接 信息 访问 文件 系统 或 数据 库 中 的 数据 ， 如 图 2.29 所 示 。 因 此 在 应 用 开发 中 ， 开 发 者 既 可 以 把 一 个 CAs 逻 辑 库 中 的 文件 加 载 为 另 一 个 CAS 逻 辑 库 中 的 CAs 表 ， 也 可 以 把 一 个 CAs 逻 
辑 库 中 的 CAs 表 保存 为 另 一 个 CAsLIB 中 的 CAs 文 件 。 


数据 源 信息 


文件 ] ( 文件 ] ( 文件 


图 2.29 CASI HER. KH AOCAS 
(2) CAS 表 的 作用 域 


加 载 到 内 存 中 的 CAs 表 默认 是 会 话 范围 (Session-Scope) 表 ， 其 仅 对 当前 CAS 会 话 可 用 。 对 于 即席 数据 访问 和 分 析 ， 会 话 范围 表 是 最 合适 的 选择 ， 因 为 会 话 范围 表 不 要 求 访问 控制 检查 或 任何 形式 的 
并 发 访问 锁 。 但 一 个 CAS 会 话 不 能 访问 自己 会 话 范围 之 外 的 其 他 会 话 范围 表 。 如 果 需 要 在 多 个 CAS 会 话 之 间 提 供 共享 访问 ， 则 需要 全 局 范围 (Global-Scope) 表 。 会 话 范围 表 可 以 提升 为 全 局 范围 表 。 将 表 
提升 为 全 局 范围 表 之 后 ， 若 可 以 访问 到 相同 CAs 逻 辑 库 的 会 话 就 可 以 访问 该 内 存 表 的 同一 备份 了 。 


(3) 查看 CAs 逻 辑 库 中 的 文件 和 CAs 表 


CAS 逻 辑 库 中 的 文件 和 CAS 表 可 通过 CASUTIL 过 程 来 查看 ， 其 基本 形式 如 下 : 


PROC CASUTIL <INCASLIB=CRAS 罗 辑 库 名 称 SESSREF= 会 话 名 称 >; 
LIST FILES|TALBES <OPTIONS>; 
QUIT; 


:INCALSIB 指 定 要 查看 CAS 罗 辑 库 的 名 称 。 省 略 该 选项 时 是 指 当前 活动 CAS 逻 辑 库 。 


“ SESSREF 指 定 会 话 名 称 。 省 略 该 选项 时 是 指 最 近 创 建 的 CAS 会 话 ， 即 选项 SESSREF 或 宏 变 量 SESSREF 的 值 指定 的 CAS 会 话 。 


"LIST 语句 中 ， 指 定 选 项 FILES 时 是 指 查 看 文件 ， 指 定 选 项 TABLES 时 是 指 查看 CAS 表 。 


"LIST 语句 的 OPTIONS 可 以 是 表 2.6 中 列 出 的 选项 。 


表 2.6 CASUTIL 过 程 的 LIST 语 句 的 选项 


选项 描述 

aes , 指定 要 列 出 的 文件 或 CAS 表 的 CAS 逻辑 库 。LIST 语句 中 的 该 选项 会 
Neer 覆盖 PROC CASUTIL 语句 中 的 INCASLIB 
NOSUBDIRS 对 基于 路 径 的 CAS 逻辑 库 列 出 文件 时 ， 不 列 出 子 目录 
DATASOURCEOPTIONS= 数据 源 选 项 PT CRIN , Feat CAS 逻辑 库 的 DATASOURCE= 选项 
All HDFS 类 型 的 CAS 逻辑 库 一 起 使 用 ， 显 示 文 件 的 行 数 


ROWCOUNT 
SUBDIR=" 路 径 " 对 基于 路 径 的 CAS 逻辑 库 列 出 文件 时 ， 列 出 该 子路 径 下 的 文件 。 该 移 
i 项 值 为 相对 路 径 ， 其 父 路 径 是 CAS 逻辑 库 的 路 径 


下 面 的 示例 代码 用 于 查看 datalib 中 的 文件 和 CAS 表 : 


cas mysess; 
caslib datalib datasource=(srctype="path") path="/opt/sas/data"; 


proc casutil incaslib=datalib; 
list tables; 
list files; 

quit; 


提交 该 代码 后 的 输出 如 图 2.30 所 示 。 


| Library 


Source Type 


Path /opt/sas/data/ 
| Session local 


ee 


图 2.30 ”显示 CAS 罗 辑 库 的 CAS 表 和 文件 


由 以 上 输出 可 见 ， 基 于 路 径 的 CASs 罗 辑 库 datalib 中 不 存在 CAs 表 ， 并 且 包 含 文件 hmeq.sas7bdat。 


3.SAS 逻 辑 库 和 SAS 数 据 集 


ESAS Viya 中 ，CAS 会 话 可 以 访问 CAs 逻 辑 库 、CAS 逻 辑 库 的 文件 和 CAS 表 。 本 节 主 要 介绍 在 SASs Viya 中 的 SAS 客 户 端 会 话 访问 数据 时 使 用 的 SAS 逻 辑 库 和 SAS 数 据 集 ， 这 也 是 在 SAS Viya 之 前 的 SAS 版 
本 访问 和 操作 数据 的 主要 方式 。 


(1) SASHES 


SAS 罗 辑 库 是 一 个 或 多 个 SAS 文 件 的 集合 ， 用 于 组 织 、 查 找 和 管理 SAS 文 件 。SAS 逻 辑 库 管理 的 SAS 文 件 包 括 SAS 数 据 集 、SAs 目 录 (catalog) 、 已 编译 的 SAS 程 序 ， 以 及 多 维 数据 库 文件 等 。SAs 罗 辑 
库 通常 是 包含 在 同一 个 文件 来 或 目录 下 的 一 组 SAS 文 件 。 只 有 具有 SAS 文 件 扩展 名 的 那些 文件 会 被 认为 是 该 SAs 逻 辑 库 的 一 部 分 ， 虽 然 其 他 文件 也 可 以 存储 在 该 SAs 罗 辑 库 的 文件 夹 和 目录 下 。 


可 以 通过 LIBNAME 语 句 来 定义 逻辑 库 ， 并 将 SAs 逻 辑 库 与 对 应 的 逻辑 库 引 用 名 关联 起 来 。 之 后 便 可 以 通过 该 逻辑 库 引 用 名 来 读 取 、 写 入 并 更 新 SAS 逻 辑 库 中 的 SAs 文 件 了 。 使 用 LIBNAME 语 名 定义 SAS 
逻辑 库 的 简化 语法 格式 如 下 : 


LIBNAME 逻辑 库 引 用 名 < 逻辑 库 引 擎 > ' 逻 辑 库 物理 位 置 '; 


逻辑 库 引 用 名 


在 定义 SAS 逻 辑 库 时 需要 指定 逻辑 库 引用 名 ， 临 时 逻辑 库 WORK 除 外 。SAS 逻 辑 库 引 用 名 的 命名 规范 如 下 。 


“ 最 大 长 度 是 8 个 字符 。 
“ 必须 以 字母 (从 A 到 Z， 大 小 写 均 可 ) 或 下 划 线 “_” 开 始 。 


“ 可 以 是 数字 (0~9) 、 字 母 和 下 划 线 “_” 的 任意 组 合 。 


逻辑 库 引 擎 


SAS 罗 辑 库 引 警 是 SAs 软 件 和 SAS 逻 辑 库 之 间 的 接口 软件 组 件 ， 每 个 ?As 逻辑 库 都 关联 着 一 种 逻辑 库 引 擎 。 逻 辑 库 引 警 会 识别 逻辑 库 中 的 文件 ， 并 以 SAs 可 理解 的 格式 将 文件 内 容 呈 现 给 SAs。SAs 提 供 
多 种 引擎 以 管理 多 种 格式 的 数据 。 通 过 这 些 引擎 SAs 可 以 进行 如 下 操作 : 存储 和 访问 磁盘 文件 、 将 数据 从 物理 位 置 放 入 内 存 中 、 读 取 其 他 软件 产生 的 数据 库 文件 ， 以 及 在 不 同 的 操作 系统 之 间 迁 移 SAS 文 件 
等 。 


逻辑 库 引 警 可 分 为 原生 逻辑 库 引 苟 和 接口 逻辑 库 引 警 。 原 生 逻 辑 库 引 擎 ， 即 默认 的 Base 引 警 ， 访 问 由 SAS 创 建 和 处 理 的 SAS 文 件 。 在 创建 新 逻辑 库 时 如 果 不 指定 引擎 ，SAS 会 自动 选择 Base 引 警 。 


接口 逻辑 库 引 区 用 于 访问 由 其 他 软件 系统 (例如 关系 型 数据 库 系统 、ERP 系 统 等 ) 管理 的 数据 。 接 口 逻 辑 库 需 要 显 式 指定 引擎 名 称 。 下 面 给 出 了 定义 原生 逻辑 库 和 接口 逻辑 库 的 示例 。 


Base 引 擎 的 示例 代码 如 下 (语句 中 的 “base” 可 省 略 ) : 


libname saslib base '/opt/sas/hps'; 


Teradata 引 警 的 示例 代码 如 下 : 


libname tdlib teradata server=tera2650 user=userl Password=password1l database=hps; 


逻辑 库 物 理 位 置 


SAS 逻 辑 库 物理 位 置 是 一 个 或 多 个 操作 系统 能 够 识别 的 物理 位 置 ， 或 者 是 一 个 或 多 个 已 经 定义 了 的 其 他 SAS 逻 辑 库 。 在 上 面 给 出 的 Base 引 警示 例 中 ， 罗 辑 库 saslib 的 物理 路 径 为 /opt/sas/hps。 而 对 于 连 
接 到 数据 库 管理 系统 的 SAS 逻 辑 库 ， 通 常会 通过 一 系列 数据 库 连 接 选 项 来 指定 要 访问 的 数据 库 管理 系统 的 信息 。 


(2) SAS 数 据 集 


SAs 数 据 集 是 存储 在 SAs 逻 辑 库 中 、 由 SAS 创 建 和 处 理 的 SAS 文 件 。SAS 数 据 集 包含 以 表 的 观测 (47) 和 变量 ( 列 ) 为 形式 存在 的 数据 值 ， 以 及 用 于 描述 变量 类 型 、 长 度 和 创建 该 数据 集 时 所 使 用 的 引擎 
等 信息 的 描述 信息 。 根 据 其 是 否 包 含 真正 的 数据 值 ，SAS 数 据 集 可 分 为 SAS 数 据 文件 和 SAS 视 图 。SAS 数 据 文件 包含 数据 和 描述 信息 ， 而 SAS 视 图 不 包含 数据 值 ， 而 是 指向 其 他 数据 源 的 虚数 据 集 。 


SAS 数 据 文件 分 为 原生 SAS 数 据 文件 和 接口 SAS 数 据 文件 。 原 生 数 据 文件 是 SAS 格 式 的 文件 ， 用 于 存储 SAS 格 式 的 数据 值 和 描述 信息 。 接 口 数据 文件 是 指数 据 存储 在 其 他 软件 系统 (例如 关系 型 数据 库 系 
统 、ERP 系 统 等 ) 中 ， 并 且 SAS 可 以 通过 SAS/ACCESS 接 口 引擎 访问 的 数据 文件 ， 例 如 TERADATA、ORACLE 等 数据 库 中 的 数据 文件 。SAS 通 过 SAS/ACCESS 接 口 引擎 来 访问 这 些 文件 中 的 数据 ， 并 将 这 些 文 


件 当 作 SAS 数 据 集 来 处 理 。 


引用 SAS 数 据 集 的 名 称 通常 如 下 : libref.SAS-data-set。libref 是 SAS 数 据 集 所 在 物理 位 置 相 关联 的 SAS 逻 辑 库 引用 名 。SAS-data-set 指 定数 据 集 名 称 ，SAS 会 根据 上 下 文 环境 ， 例 如 该 数据 集 出 现 的 位 
或 数据 集 的 自 描述 信息 ， 来 确定 访问 的 是 SAS 数 据 文件 还 是 SAS 视 图 。 当 引用 SAS 数 据 集 时 ， 风 辑 库 引用 名 会 告诉 SAS 在 哪个 逻辑 库 中 可 以 找到 该 数据 集 。 当 创建 新 数据 集 时 ， 软 辑 库 引用 名 表明 要 将 该 数 
据 集 保存 在 哪里 (位置 ) 。 


SAS 数 据 集 名 称 遵守 SAS 命 名 规则 ， 具 体 如 下 。 
“ 最 大 长 度 为 32 字 符 。 
“ 必须 以 字母 (从 A 到 ZZ， 大 小 写 均 可 ) 或 下 划 线 “_” 开 始 。 


“ 可 以 是 数字 、 字 母 和 下 划 线 “_” 的 任意 组 合 。 


例如 ， 引 用 saslib 逻 辑 库 中 的 SAS 原 生 数 据 文件 sales 的 形式 为 saslib.sales， 访 问 Teradata 数 据 库 表 customers， 其 形式 为 tdlib.customers， 其 中 customers 所 在 的 服务 器 、 用 户 、 密 码 等 连接 信息 在 
LIBNAME 语 句 中 指定 。 


4.CAs 引 警 罗 辑 库 


在 CAs 过 程 或 CASUTIL 过 程 中 引用 CAs 表 时 ， 可 能 会 需要 用 到 CAS 逻 辑 库 。 而 在 DATA 步 或 除了 CAS 或 CASUTIL 过 程 以 外 的 其 他 SAs 过 程 中 ， 例 如 MDSUM MARY 过 程 访 问 CAS 表 时 ， 需 要 为 该 表 所 在 的 
CAs 罗 辑 库 创 建 CAs 引 擎 的 SAs 逻 辑 库 ， 简 称 为 CAs 引 擎 逻辑 库 。 图 2.31 给 出 了 CAs 引 警 罗 辑 库 、CAS 逻 辑 库 及 SAs 代 码 之 间 的 访问 关系 。 


PROC CAS, PROC DATA 步 、 其 他 SAS 
CASUTIL 过 程 


CAS 逻辑 库 


A 
ee CAS 引擎 逻辑 库 


CAS 表 


图 2.31 CAS 引 擎 远 辑 库 和 CAS 罗 辑 库 


为 CAS 多 辑 库 建立 CAS 引 擎 逻辑 库 的 基本 语法 如 下 : 


LIBAME SAS 罗 辑 库 引用 名 CAS < 会 话 标识 > <CASLIB=CAS 多 辑 库 引 用 >; 


+ SAS 逻 辑 库 引用 名 为 所 创建 的 关联 到 指定 CAS 遇 辑 库 或 活动 CAS 罗 辑 库 的 SAS 逻 辑 库 引用 名 。 该 引用 名 必须 为 有 效 的 SAS 名 称 ， 服 从 SAS 名 称 命 名 规范 。 
“CAS 是 关键 字 ， 指 定 该 SAS 逻 辑 库 的 引擎 为 CAS。 


- 会 话 标识 指定 该 SAS 逻 辑 库 引用 名 所 连接 的 CAS 会 话 标 识 ， 可 以 是 由 CAS 控 制 器 主机 和 端口 的 组 合 、SESSREF= 选 项 指定 会 话 名 、 选 项 UUID= 或 UUIDMAC= 指 定 的 会 话 ID 之 一 。 省 略 该 选项 时 ， 该 SAS 
逻辑 库 引 用 各 会 连接 到 最 近 创 建 的 CAS 会 话 。 


+ CASLIB= 选 项 指定 该 SAS 罗 辑 库 引 用 名 所 关联 的 CAS 逻 辑 库 。 省 略 该 选项 时 ， 默 认为 关联 到 当前 活动 的 CAS 远 辑 库 。 


为 CAS 会 话 的 所 有 CAS 逻 辑 库 创建 CAs 引 擎 逻辑 库 的 基本 语法 如 下 : 


LIBAME _ALL ASSIGN <SESSREF= 会 话 引用 >; 


其 中 ，SESSREF= 选 项 用 于 指定 操作 使 用 的 CAS 会 话 。 省 略 该 选项 时 ， 默 认 使 用 最 近 启动 的 会 话 。 该 语句 会 为 CAS 会 话 中 所 有 的 CAS 逻 辑 库 创建 同名 的 CAS 引 擎 逻辑 库 。 当 CAS 钦 辑 库 引用 名 作为 SAS 软 
辑 库 引用 名 无 效 时 (因为 CAs 逻 辑 库 引用 名 与 SAs 逻 辑 库 引用 名 命名 规范 不 同 ) ，SAS Viya 不 会 为 该 CAS 钦 辑 库 创建 CAS 引 擎 逻辑 库 ， 并 在 日 志 中 给 出 对 应 说 明 。 


在 SAS Studio 中 提交 如 下 语句 : 


caslib all assign; 


代码 运行 日 志 如 图 2.32 所 示 。 


62 caslib _all_ assign; 
NOTE: CASLIB CASUSER(sasdemo) for session MYSESS will be mapped to SAS Library CASUSER. 
NOTE: CASLIB Formats for session MYSESS will be mapped to SAS Library FORMATS. 


NOTE: CASLIB Public for session MYSESS will be mapped to SAS Library PUBLIC. 
NOTE: CASLIB DATALIB for session MYSESS will be mapped to SAS Library DATALIB. 


图 2.32 A PRAT CASIBAR RE  ACCAS 3] SE Hh 
活动 会 话 中 的 4 个 CAs 逻 辑 库 分 别 分 类 了 同名 的 CAS 引 擎 的 SAs 逻 辑 库 。 
下 面 给 出 为 CAS 罗 辑 库 创 建 CAS 引 擎 的 SAs 逻 辑 库 的 示例 。 


为 最 近 创建 的 CAS 会 话 中 的 活动 CAS 逻 辑 库 创 建 CAs 引 擎 的 SAs 逻 辑 库 ， 逻 辑 库 引 用 名 为 mycas: 


libname mycas cas; 


为 会 话 mysess 的 活动 CAS 逻 辑 库 创 建 CAS 引 警 的 SAS 逻 辑 库 ， 轴 辑 库 引用 名 为 mycas: 


libname mycas cas sessref=mysess; 


为 会 话 mysess 的 CAS 罗 辑 库 casuser 创 建 CAs 引 警 的 SAs 逻 辑 库 ， 逻 辑 库 引 用 名 为 mycas: 


libname mycas cas sessref=mysess caslib=casuser; 


查看 CAS 引 警 逻 辑 库 mycas 对 应 的 CAS 逻 辑 库 : 


cas mysess; 

caslib datalib datasource=(srctype="path") path="/opt/sas/data"; 
libname mycas cas caslib=datalib; 

libname mycas list; 


LIBNAME 语 句 运行 日 志 如 图 2.33 所 示 ，CAS 引 擎 逻辑 库 mycas 的 CAS 逻 辑 库 为 DATALIB。 


62 libname mycas list; 
NOTE: 逻辑 库 引 用 名 = MYCAS 
范围 = IOM ROOT COMP ENV 
引擎 = CAS 
物理 名 = 93b488c4-cf4d-424f-87ba-6df9768c87cf 


服务 器 会 话 UUID= 93b488c4-cf4d-424f-87ba-6df9768c87cf 
服务 器 会 话 名 称 = MYSESS 

服务 器 主机 = BRDVMe928 

服务 器 会 话 端口 = 5570 

服务 器 会 话 CAS 逻辑 库 = DATALIB 


图 2.33 CAS 引擎 逻辑 库 信 息 


2.2.3 CAS 语言 


SAS CASL 是 在 SAS Viya 为 了 访问 和 操作 CAS 服 务 器 而 设计 的 新 的 开发 语言 。 它 使 用 了 一 套 新 的 语法 规则 ， 吸 收 了 很 多 其 他 高 级 语言 的 优点 ， 使 代码 变 得 更 加 易于 编写 和 | 阅读， 但 同时 又 在 一 定 程度 上 沿 
袭 了 SAS 语 言 以 往 的 使 用 习惯 ,与 SAS 语 言 以往 的 风格 保持 了 一 致 。 


(1) PROC CAS 


SAS 为 CASL 定 义 了 一 个 新 的 过 程 (Procedure) 一 一 CAS 过 程 。 使 用 CASL 开 发 的 代码 都 必须 放 到 PROC CAS 里 才 可 以 提交 执行 。 


(2) ACTION 和 ACTION 集 


ACTION 是 SAS 预 先 封装 的 可 以 在 CAS 服 务 器 内 进行 数据 处 理 和 分 析 的 模块 。SAs 将 实现 的 功能 或 操作 类 似 的 多 个 ACTION 组 合成 ACTION 集 (ACTION SET) 。 单 独 的 ACTION 或 ACTION 集 内 的 
ACTION 都 可 以 在 CAs 过 程 中 调用 。 使 用 CAsL 过 程 调用 ACTION 和 ACTION 集 的 示例 如 下 : 


proc cas; 
tableinfo result=r /table='"hmeq'; 
print r; 
run; 
columninfo result=r /table="hmeq'; 
print r; 
run; 
simple.summary/table='hmeq'; 
run; 
quit; 


在 上 面 的 代码 中 ，tableinfo 是 一 个 能 够 显示 表 的 总 体 信息 的 ACTION，ACTION columninfo 则 是 显示 表 的 所 有 列 信息 ，ACTION 集 合 simple 中 的 ACTION summary 对 表 的 变量 进行 汇总 。 其 中 
tableinfo、columninfo 和 simple.summary 前 的 关键 字 ACTION 省 略 了 。 虽 然 ACTION tableinfo 和 columninfo 都 属于 ACTION 集 table， 但 因为 其 他 ACTION 集 中 没有 这 两 个 同样 名 字 的 ACTION ， 因 此 不 
会 造成 歧义 ， 所 以 在 调用 这 两 个 ACTION 时 省 略 了 ACTION 集 table。 


2.2.4 SAS 选 项 


前 面 的 例子 中 多 次 提 到 了 选项 。SAs 提 供 了 众多 选项 (Option) ， 对 于 这 些 选项 ， 根 据 SAs 选 项 出 现 的 位 置 、 功 能 和 作用 范围 来 区 分 ， 一 般 可 分 为 SAs 系 统 选项 、SAs 数 据 集 选 项 和 CAS 会 话 选项 系统 选 
项 中 与 CAS 相 关 的 选项 又 称 为 CAS 系 统 选项 。 


1.SAS 系 统 选 项 


SAS 系 统 选项 是 影响 整个 会 话 过 程 中 SAS 程 序 处 理 或 交互 式 SAS 会 话 的 指令 。 系 统 选 项 被 指定 时 即 开始 产生 影响 ， 直 到 | 其 被 改变 。 


SAS 系 统 选项 可 在 SAS 配 置 文 件 、AUTOEXEC 文 件 、 作 为 SAS 启 动 命令 参数 、OPTIONS 语 句 或 SASV9_OPTIONS 环 境 变 量 中 指定 。 


(1) SAS 系 统 选 项 配置 


SAS 配 置 文件 


SAS 配 置 文件 的 名 称 为 sasv9.cfg， 通 常 位 于 SAs 安 装 根 目录 下 。 在 启动 SAs 的 命令 中 不 指定 配置 文件 时 ，SAS 启 动 时 所 使 用 的 配置 文件 在 启动 SAs 的 可 执行 文件 〈 例 如 sas 文 件 ) 中 指定 。SAs 系 统 参数 可 
在 配置 文件 中 设置 ， 用 户 可 修改 这 些 系统 参数 值 。 一 个 比较 实际 的 例子 就 是 ， 很 多 商业 项 目 ， 不 希望 SAS 使 用 其 默认 的 临时 逻辑 库 WORK 位 置 ， 而 是 希望 将 临时 逻辑 库 WORK 建 立 在 一 个 高 速 存储 系统 中 ， 
以 提高 SAs 常 用 操作 的 效率 ， 因 此 可 以 在 配置 文件 中 修改 临时 逻辑 库 WORK 的 物理 位 置 。 在 配置 文件 中 可 通过 -wo 选项 修改 WORK 逻 辑 库 的 物理 位 置 为 /SAsSWORK， 内 容 如 下 : 


-work /SASWORK 


当 使 用 批 处 理 和 交互 行 模式 启动 SAs 时 ， 还 可 以 为 SAS 会 话 指定 定制 的 配置 文件 ，SAS 系 统 选项 也 可 以 在 所 指定 的 定制 配置 文件 中 。 使 用 定制 的 配置 文件 sasv9_custom.cfg 示 例如 下 ， 示 例 中 假定 该 文件 
位 于 目录 /opt/sas/SASHome/SASFoundation/9.4 下 : 


#/opt/sas/SASHome/SASFoundation/9.4/sas -config "/opt/sas/SASHome/SASFoundation/9.4/sasv9_custom.cfg" 


AUTOEXEC 文 件 中 的 OPTIONS 语 句 


启动 SAS 时 ， 还 可 以 通过 AUTOEXEC 选 项 指定 AUTOEXEC 文 件 。 在 SAS 启 动 时 ， 如 果 没 有 指定 AUTOEXEC 或 NOAUTOEXEC 选 项 ， 那 么 SAs 会 在 当前 目录 、 用 户 目录 和 SAS 安 装 根 目录 下 查找 
AUTOEXEC 文 件 autoexec.sas。 


AUTOEXEC 文 件 包 含 启 动 SAs 或 其 他 SAs 进 程 时 自动 执行 的 SASs 语 句 ， 例 如 该 文件 可 包含 OPTIONS 语 句 来 指定 系统 选项 ， 可 包含 定义 在 SAS 会 话 中 经 常 使 用 的 一 些 SAs 逻 辑 库 的 LIBNAME 语 句 。 


当 使 用 批 处 理 和 交互 行 模式 启动 SAs 时 ， 也 可 以 在 启动 SAs 的 命令 行 里 指定 AUTOEXEC 


选项 。 启 动 SAS 客 户 端 会 话 时 通过 命令 行 指 定 AUTOEXEC 文 件 autoexec_custom.sas 的 示例 如 下 ， 示 例 中 假定 该 文件 位 于 目录 /opt/sas/SASHome/SASFoundation/9.4 下 。 


#/opt/sas/SASHome/SASFoundation/9.4/sas -AUTOEXEC "/opt/sas/SASHome/SASFoundation/9.4/autoexec_custom.sas" 


SAS 启 动 命令 


批 处 理 方式 或 交互 行 模式 直接 通过 sas 命 令 启动 SAs 会 话 时 ， 还 可 以 直接 指定 SAs 系 统 选项 。 例 如 ， 将 SAs 客 户 端 的 临时 逻辑 库 WORK 的 物理 路 径 设置 为 /SAsSWORK 的 命令 行 如 下 : 


#/opt/sas/SASHome/SASFoundation/9.4/sas -work /SASWORK 


OPTIONS 语 句 


OPTIONS 语 句 可 以 在 AUTOEXEC 文 件 中 指定 系统 选项 ， 所 指定 的 选项 在 SAS 启 动 时 应 用 生效 。 在 SAS 会 话 启动 之 后 ， 也 可 以 通过 OPTIONS 语 句 来 指定 系统 选项 。OPTIONS 语 句 指定 选项 的 形式 如 下 : 


OPTIONS 选项 1 < 选项 2> < 选项 3> i 


例如 ， 指 定 在 SAs 日 志 中 打印 SAs 运 行 的 详细 的 资源 使 用 信息 的 代码 如 下 : 


options fullstimer; 


注意 ”有些 选项 只 能 在 SAS 启 动 时 指定 ， 无 法 在 SAS 启 动 后 再 指定 ， 例 如 SAS 会 话 可 使 用 的 内 存 -memsize。 


SASV9_OPTIONS 环 境 变 量 


在 启动 SAS 前 可 通过 SASV9 OPTIONS 环 境 变量 指定 SAS 系 统 选项 。 在 K Shell 中 ， 可 通过 SASV9_OPTIONS 环 境 变 量 指定 fullstimer 选 项 的 示例 代码 如 下 : 


export SASV9_OPTIONS='-fullstimer' 


受 限 选项 


受 限 选 项 是 指 其 值 由 SAS 站 点 管理 员 确定 且 无 法 被 覆盖 的 系统 选项 ， 用 于 要 求 SAS 会 话 遵守 所 设置 的 选项 值 。SAS 站 点 管理 员 可 创建 受 限 选 项 表 ， 以 在 该 选项 表 中 指定 启动 SAS 时 被 限制 的 选项 值 。 试 | 
修改 受 限 选项 表 中 所 列 出 的 系统 选项 会 在 SAS 日 志 中 产生 一 条 消息 ， 说 明 该 系统 选项 被 SAS 站 点 管理 员 限 制 并 且 无 法 更 新 。 


im 


OPTION 过 程 提 供 了 RESTRICT 和 LISTRESTRICT 分 别 用 于 显示 受 限 选项 的 相关 信息 。RESTRICT 选 项 列 出 当前 环境 中 SAs 站 点 管理 员 已 限制 的 系统 选项 ，LISTRESTRICT 选 项 列 出 可 由 SAS 站 点 环境 管理 员 
限制 的 选项 。 


提交 如 下 代码 可 显示 该 SAS 客 户 端 会 话 的 受 限 选项 : 


proc options restrict; 
run; 


代码 提交 产生 的 日 志 如 图 2.34 所 示 。 该 SAS 站 点 无 受 限 选项 。 


proc options restrict; 
run; 
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SAS 选项 受 您 的 软件 安装 点 管理 员 限 制 
您 的 软件 安装 点 管理 员 尚未 限定 任何 SAS 选项 。 


图 2.34 SAS 站 点 的 受 限 选项 


提交 如 下 代码 列 出 SAS 站 点 可 限制 的 系统 选项 : 


proc options listrestrict; 
run; 


代码 执行 所 产生 的 部 分 日 志 如 图 2.35 所 示 。 


选项 出 现 地 方 的 优先 级 


如 果 相同 的 系统 选项 出 现在 多 个 地 方 ， 那 么 其 优先 顺序 从 高 到 低 具体 如 下 。 
1) 受 限 选项 表 


2) SAS 启 动 后 的 OPTIONS 语 句 


58 proc options listrestrict; 

59 

60 OPTIONS NONOTES NOSTIMER NOSOURCE NOSYNTAXCHECK ; 
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您 的 软件 安装 点 管理 员 可 限制 修改 以 下 可 移植 选项 的 功能 : 


ANIMATION 指定 是 启动 还 是 停止 动画 。 

ANIMDURATION 指定 每 帧 动画 显示 的 秒 数 。 

ANIMLOOP 指定 动画 图 像 重 复 的 迭代 次 数 。 

ANIMOVERLAY 指定 动画 帧 是 受 加 的 以 便 查看 所 有 帧 。 

APPLETLOC 指定 Java Applet 的 位 置 ， 通 常 为 URL。 

ARMAGENT 指定 包含 ARM API 的 特定 实施 的 ARM 代理 (为 可 执行 模块 或 关键 字 ， 如 LOGASAS) 。 
ARMLOC 指定 ARM 日 志 的 位 置 。 

ARMSUBSYS 指定 要 启用 或 禁用 的 SAS ARM 子 系统 。 

AUTOCORRECT 自动 更 正 拼 错 的 过 程 名 称 和 关键 字 ， 以 及 全 局 语句 名 称 。 

AUTOSAVELOC 指定 程序 编辑 器 自动 保存 文件 的 位 置 。 

AUTOSIGNON 允许 SAS/CONNECT 客户 端 使 用 RSUBMIT 命令 远程 自动 提交 SIGNON 命令 。 
BINDING 指定 双 面 打印 输出 的 装订 边界 类 型 。 

BUFNO 指定 处 理 SAs 数据 集 的 缓冲 区 数 。 

BUFSIZE 指定 输出 SAS 数据 集 的 缓冲 页 面 的 大 小 。 


图 2.35 SAS 站 点 的 可 限制 选项 
3) 包含 OPTIONS 语 句 的 AUTOEXEC 文 件 
4) SAS 启 动 命令 
5) SASV9 OPTIONS 环 境 变 量 
6) 配置 文件 
7) SASs 系 统 默认 值 


(2) 查看 SAS 系 统 选项 值 


如 果 数 据 集 选项 和 语句 选项 出 现在 当前 起 作用 的 位 置 ， 那 么 选项 值 可 以 很 容易 查看 到 。 但 是 ， 要 看 到 当前 起 作用 的 SAS 系 统 选项 值 和 当前 值 是 通过 何 种 方式 设置 的 就 没有 那么 直接 了 ， 因 为 SAS 为 系统 选 
项 提供 了 默认 值 并 且 有 多 种 方式 可 以 设 定 系统 选项 值 。 对 此 ， 可 以 使 用 OPTIONS 过 程 、GETOPTIONS 函 数 等 指定 选项 名 称 来 查看 。 


+ 带 VALUE 选项 的 OPTIONS 过 程 将 指定 选项 的 值 、 范 围 及 该 值 的 设置 信息 打印 到 日 志 窗 口 的 基本 形式 如 下 : 


PROC OPTIONS OPTION= 选 项 名 称 VALUE; 
RUN; 


在 SAS studio 中 提交 如 下 代码 以 显示 SAS 系 统 选 项 ENCODING 的 值 及 该 值 的 设置 信息 。 系 统 选 项 ENCODING 用 于 显示 SAS 客 户 端 会 话 的 编码 ， 关 于 编码 请 参考 本 章 的 2.3 节 。 


proc options option=encoding value; 
run; 


日 志 窗 口 打印 的 输出 如 图 2.36 所 示 。 从 该 图 可 以 看 出 ，OPTION 过 程 打印 系统 选项 ENCODING 的 值 为 UTF-8， 并 显示 该 值 是 通过 OPTIONS 语 句 进行 设置 的 。 


proc options option=encoding value; 
run; 
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SAS 选项 ENCODING 的 选项 值 信息 


值 : UTF-8 

wH]: SAS Session 

选项 值 如 何 设 置 : Config File 

配置 文件 名 : 
/opt/sas/viya/home/SASFoundation/nls/u8/sasv9.cfg 


2.36 ”OPTIONS 过 程 打 印 的 选项 信息 


不 使 用 选项 VALUE 时 会 仅 返回 该 选项 值 。 


“ 将 GETOPTION 函 数 作为 %SYSFUNC 宏 函数 的 参数 ， 从 而 获取 系统 选项 设置 的 基本 形式 如 下 : 


SPUT %SYSFUNC (GETOPTION (选项 名 称 ) ) ; 


在 SAS studio 中 提交 如 下 代码 : 


%put %sysfunc (getoption (encoding)); 


日 志 输出 如 图 2.37 所 示 。 从 该 图 可 以 看 出 ， 系 统 选 项 ENCODING 的 值 为 UTF-8。 


%put %sysfunc(getoption(encoding)); 


图 2.37 GETOPTION 函 数 的 选项 信息 


在 GETOPTIONS 函 数 中 还 可 以 添加 其 他 参数 ， 显 示 指 定 选项 的 其 他 信息 ， 例 如 默认 值 、 启 动 时 的 值 ， 以 及 该 值 的 设置 信息 等 。 


2.SAS 数 据 集 选项 


SAS 数 据 集 选项 指定 了 可 用 于 SAS 数 据 集 的 特定 操作 ， 例 如 重 命名 数据 集中 的 变量 ， 选 择 用 于 处 理 的 行 和 /或 变量 ， 是 否 对 数据 集 进行 压缩 操作 等 。 


例如 ， 在 CASUTIL 过 程 的 LOAD 语 句 中 ， 可 以 使 用 DROP= 数 据 集 选项 ， 指 定 在 读 入 数据 集 到 CAS 风 辑 库 时 不 读 入 DROP= 数 据 集 选项 所 指定 的 变量 。 示 例 代码 如 下 : 


cas mysess; 

proc casutil; 
load data=sashelp.cars (drop=mpg_city); 
contents casdata="cars"; 

quit; 


上 述 代码 将 数据 集 sashelp.cars 中 除 mpg_city 之 外 的 其 他 变量 的 所 有 数据 加 载 到 CAs 服 务 器 ， 并 打印 该 CAs 表 的 属性 。 


SAS 数 据 集 选项 非常 多 ， 这 里 不 再 细 述 。 


3.CAS 系 统 选 项 


CAS 系 统 选 项 用 于 控制 CAS 服 务 器 或 要 建立 的 CAS 会 话 的 属性 ， 是 SAS 系 统 选 项 中 与 CAS 相 关 的 部 分 。CAS 系 统 选项 会 影响 当前 用 户 的 所 有 会 话 。 例 如 CASNWORKERS= 选 项 指定 的 CAS 工 作 节 点 数 ， 
会 影响 要 建立 的 所 有 CAS 会 话 。 下 面 的 代码 会 在 日 志 中 显示 所 有 的 CAS 系 统 选 项 、 其 当前 值 及 选项 描述 。 读 者 可 自行 执行 该 代码 以 查看 日 志 。 


proc options group=cas; 
run; 


表 2.7 中 给 


出 了 所 有 CAS 系 统 选项 及 其 描述 。 


表 2.7 CAS 系 统 选项 及 描述 


系统 选项 描述 
指定 用 于 命令 行 或 SUN VEE 密码 和 文件 。 该 选项 也 
CASAUTHINFO= | 指定 用 于 多 令 行 或 批 处 理 模式 时 认证 到 CAS 服务 器 的 用 户 ID 和 密码 所 在 的 文件 。 该 选项 也 
写作 AUTHINFO= 
CASHOST= 指定 与 CAS 会 话 相 关联 的 CAS 控制 器 主机 
CASLIB= 指定 由 选项 SESSREF= 标识 的 CAS 会 话 的 活动 CAS 逻辑 库 
fore A E k Aid 4 关联 ， 并 将 活动 会 话 设置 为 该 会 话 。 该 选项 也 写作 
CASNAME= 间 定 一 个 与 已 创建 的 CAS 会 话 名 的 关联 ， 并 将 活动 会 话 设置 为 该 CAS 会 话 。 该 选项 也 写作 


SESSREF= 


CASNWORKERS= | ”指定 启动 CAS 会 话 的 工作 节点 数 


CASPORT= 省 定 连接 到 CAS 会 话 的 端口 
CASSESSOPTS= 为 活动 的 CAS 会 话 指 定 一 个 或 多 个 会 话 选项 
CASTIMEOUT= 指定 新 CAS 会 话 的 超时 时 间 ， 单 位 为 秒 
CASUSER= 指定 连接 CAS 的 用 户 ID 

4.CAS 会 话 选 项 


CAS 会 话 选 项 用 于 控制 CAS 会 话 的 各 种 属性 。 表 2.8 给 出 了 所 有 的 CAS 会 话 选 项 及 其 描述 。 


R28 CAS 会话 选项 


会 话 选项 类 别 描述 
ACTION APPTAG= 指定 日 志 消 息 前 级 字符 串 
CASLIB= 设置 指定 CAS 逻辑 库 为 活动 CAS 人 逻辑 库 


CAS 逻辑 库 


代码 优化 CMPOPT= 


MAXTABLEMEM= 
16MB 


48 KE — TK AE IC Ie A Fe, A Ai, BRU AE 


指定 在 SAS 语言 编译 带 中 使 用 的 代码 生成 优化 类 别 


排序 COLLATE= 指定 排序 顺序 
DATASTEPREPACETABLE= 指定 DATA 步 是 否 可 以 替换 表 

DATASTEPMSGSUMLEVEL= | 指定 DATA 步 消 息 汇总 层 

格式 FMTCASLIB= 指定 FORMAT 所 在 的 CAS 逻辑 库 

本 地 化 LOCALE= 指定 排序 或 格式 时 所 用 的 语言 /区域 选 项 
LOGFLUSHTIME= 指定 日 志 刷 新 时 间 ， 以 秒 为 单位 

日 志 MESSAGELEVEL= 指定 日 志 消 息 级 别 
METRICS= 指定 是 否 将 详细 性 能 指标 报告 包括 在 SAS 日 志 中 
NWORKERS= 指定 新 CAS 会 话 的 CAS 工作 节点 数 

会 话 TIMEOUT= 为 新 的 或 已 存在 的 CAS 会 话 # 


小 
iti 
S 
= 


昌 定 会 话 超 时 值 


TIMEZONE= 指定 以 UTC 为 标准 的 时 区 偏 移 ， 按 小 时 


CAS 会 话 选 项 可 通过 如 下 方式 来 指定 。 


+ 启动 CAS 会 话 时 在 CAS 语 句 的 SESSOPTS= 选 项 中 指定 。 


“启动 CAS 会 话 后 通过 带 SESSOPTS= 选 项 的 CAS 语 和 句 指定 。 


+ 通过 OPTIONS 语 句 设置 CAS 系 统 选 项 CASTIMEOUT 和 CASNWORKERS 会 分 别 自动 设置 CAS 会 话 选 项 TIMEOUT 和 NWORKERS。 


- 通过 CAS 服 务 器 配置 文件 (位 于 /etc/cas/default/casconfig.lua) 中 指定 的 配置 参数 来 指定 。 


通过 CAS 语 句 的 SESSOPTS= 选 项 指定 CAS 会 话 选 项 的 描述 请 参考 本 章 的 2.2.1 节 。 


在 CAS 语 句 中 使 用 LISTSESSOPTS 语 名 选项 可 以 列 出 CAS 会 话 的 当前 设置 或 通过 GETSESSOPT 函 数 获取 某 一 会 话 的 


GETSESSOPT 函 数 的 基本 语法 如 下 : 


属性 设 


。 在 CAS 语 句 中 如 何 使 


用 LISTSESSOPTS 选 项 在 前 面 已 经 介绍 过 。 


GETSESSOPT (cas 会 话 名 , cas 会 话 选项 ) ; 


示例 代码 如 下 : 


cas mysess; 
caslib datalib datasource=(srctype="path") path="/opt/sas/data"; 
cas mysess sessopts=(timeout=1800 caslib=datalib) ; 


data null ; 
x=GETSESSOPT ("mysess", "caslib"); 
put x=; 
run; 
上 述 代码 的 运行 日 志 如 图 2.38 所 示 。 日 志 中 可 以 看 出 CASLIB= 会 话 选项 的 值 为 datalib。 


59 
NOTE: 


cas mysess host=cashost; 


The session MYSESS connected successfully to Cloud Analytic Services CASHOST using port 5570. The UUID is 


20c84dba-e302-ca40-85e5-3bfildadd8c3d. The user is sasdemo and the active caslib is CASUSER(sasdemo). 


NOTE: 
NOTE: 
NOTE: 
60 
NOTE: 
NOTE: 
NOTE: 
61 
NOTE: 
NOTE: 
62 
63 
64 
65 
66 


The session is using @ workers. 
"DATALIB' is now the active caslib. 


'DATALIB' is now the active caslib. 


data _null_; 
x=GETSESSOPT(“mysess", "caslib"); 
put x=; 

run; 


x=datalib 


此 外 ， 在 SAS Viya 的 CAS Server Monitor 的 配置 页 面 中 的 “CAS 配 置 ” 选 项 卡 中 也 可 以 浏览 所 配置 的 选项 值 和 选项 值 来 源 ， 请 参考 第 1 


2.3 SAS Viya 中 的 编码 


在 SAS Viya 中 ， 无 论 是 SAS 客 户 端 会 话 还 是 CAS 会 话 ， 都 仅 支持 UTF-8 编 码 。 当 SAS Viya 处 理 其 他 编码 的 数 


2.3.1 SAS Viya 的 UTF-8 编 码 


字符 集 (Character Set) 是 由 一 种 或 一 组 语言 使 用 的 字符 和 符号 组 成 的 集合 。 
的 控制 字符 。 字 符 集 编码 (Character Set Encoding) 是 指 将 一 个 字符 集中 的 每 个 字符 映射 为 一 个 唯一 的 数字 ， 所 有 的 字符 及 对 应 的 数字 共同 构成 了 码 点 (Code Point) 表 ， 所 对 应 的 数字 则 称 为 该 字符 
的 码 点 。 码 点 表 也 称 为 码 页 (Code Page) ， 通 常 按照 字符 的 码 点 进行 排序 。 将 字符 映射 成 码 点 的 过 程 称 为 编码 。 


编码 方法 通常 采 


由 各 个 计算 机 硬件 制造 商 和 标准 组 织 开发 的 标准 规范 。 常 


SAS Viya 仅 支持 UTF-8 编 码 。UTF-8 是 一 种 以 8 位 (bit) 为 单位 的 变 长 度 编码 方式 ， 可 以 表示 Unicode 字 符 集中 的 所 有 字符 。 在 UTF-8 编 码 中 ，ASCIl 字 母 使 F 
助 平面 字符 则 使 用 4 个 字 节 。 


的 汉字 使 


尔 字 母 使 用 2 个 字 节 存储 ， 常 BNET, 


如 果 多 个 操作 环境 所 使 


The SAS option SESSREF was updated with the value MYSESS. 
The SAS macro _SESSREF_ was updated with the value MYSESS. 


caslib datalib datasource=(srctype="path") path="/opt/sas/data"; 
Cloud Analytic Services added the caslib ‘DATALIB'. 


Action to ADD caslib DATALIB completed for session MYSESS. 
cas mysess sessopts=(timeout=1800 caslib=datalib) ; 


图 2.38 ”查看 CAS 会 话 选项 值 


的 图 


a, 3 


The CAS statement request to update one or more session options for session MYSESS completed. 


1.20, 


注意 会 存在 转 码 的 过 程 。SAS Viya 支 持 多 种 语言 /区 域 设 置 。 


字符 集 通 常 包含 本 地 字符 、 特 殊 字符 (标点 符号 ) 、 


不 带 音 标的 大 小 写 拉丁 字符 (a-z 和 A-Z) 、 数 字 0~9 和 计算 机 需要 使 


的 编码 标准 有 美国 信息 交换 标准 编码 ASCII、EBCDIC 系 列 、1SO 646 系 列 、1SO 8859 系 列 、GB 2312、GBK、BIG5 码 、 
MS-950， 以 及 Unicode 等 。Unicode 基 本 上 包含 了 世界 上 所 有 的 文字 ， 有 三 种 编码 形式 : UTF-8、UTF-16 和 UTF-32。 


的 编码 不 同 ， 那 么 它们 在 交换 数据 时 可 能 就 会 需要 进行 转 码 。 转 码 (Transcoding) 是 将 数据 从 一 种 编码 形式 转换 成 另 一 种 编码 形式 。 转 码 中 可 能 会 出 现 的 


1 个 字 节 存储 ， 重 音 文 字 、 希 腊 字 母 和 西里 


问题 是 乱码 和 截 


断 。 当 目标 字符 集中 不 存在 原 字符 集中 的 字符 时 ， 该 字符 会 显示 为 乱码 。 例 如 从 简体 中 文 编码 GBK 转 码 到 Latin1 时 ， 由 于 在 Latin1 字 符 集中 不 存在 中 文 汉字 ， 因 此 中 文 汉字 会 显示 为 乱码 。 此 外 ， 转 码 后 的 


字符 所 占 的 长 度 可 能 会 超过 原 字 符 的 长 度 ， 这 时 ， 如 果 存 储 该 字符 的 字符 串 变 量 的 长 度 不 够 ， 则 会 产生 截断 。 例 如 在 将 数据 集 从 GBK 编 码 转换 到 UTF-8 编 码 时 ， 因 为 中 文 汉字 在 GBK 中 的 
节 ， 而 有 些 汉字 在 UTF-8 编 码 中 的 长 度 为 3 个 字 节 ， 此 时 就 会 出 现 该 字符 变量 的 长 度 无 法 容纳 其 所 有 字符 的 UTF-8 编 码 的 情况 ， 这 样 一 来 ， 转 码 后 产生 的 字符 串 实际 上 是 被 截断 后 的 字符 


理 不 同 的 数据 源 时 ， 需 要 考虑 可 能 存在 的 转 码 情况 以 及 转 码 可 能 带 来 的 影响 。 


SAS Viya 中 使 


proc options option=encoding; 
run; 


的 编码 可 以 通过 选项 ENCODING= 来 查看 ， 该 选项 值 不 可 以 修改 : 


编码 长 度 为 2 个 字 


B. ZESAS Viya 中 处 


其 运行 日 志 如 下 : 


57 
58 


Proc options option=encoding; 
run; 
SAS 


(R) PROPRIETARY SOFTWARE RELEASE V.03.01 TS1MO 


ENCODING=UTF-8 指定 SAS 会 话 的 默认 字符 集 编码 。 


字符 编码 是 数据 在 计算 机 中 存储 的 形式 。 而 当 数 据 需要 表现 特定 的 意义 ， 例 如 货币 、 日 期 等 时 ， 其 展示 需要 符合 本 地 的 生活 和 文化 习俗 。 


23.2 


语言 


地 址 、 电 话 号 码 等 。 对 语言 / 
符号 ， 美 国 与 中 国 一 致 ， 而 法 国 则 不 同 。 


语言 


有 两 种 官方 语言 ， 英 语 和 法 语 。 通 常 系统 会 使 
为 “语言 区 域 ”， 例 如 使 用 中 文 的 地 区 ， 它 们 的 


语言 /区 域 选 项 LOCALE= 


区 域 (Locale) 反映 的 是 某 一 地 理 区 域 的 语言 、 本 地 习俗 (例如 数 


(Language) 属于 Locale， 但 是 语言 并 不 唯一 对 应 于 任何 Locale。 例 如 ， 有 很 多 地 方 都 使 


I 此， 支持 这 三 种 语言 的 应 


符 ， 同 时 也 可 以 使 


SAS Viya 中 支持 多 种 语言 


POSIX 标 准 的 Locale 标 识 符 来 标识 不 同 的 区 域 。 


区 域 选 项 ， 也 提供 了 语言 /区 域 系统 选项 LOCALE= 来 处 理 和 


时 间 和 货币 符号 等 。 


(1) 


系统 选项 LOCALE= 


居 格 式 ) 及 文化 。 本 地 习俗 包括 国家 或 地 区 的 数字 、 日 期 时 间 和 货币 符号 的 特定 格式 ， 以 及 字符 排列 规则 、 纸 张大 小 设置 、 邮 政 
区 域 进行 设置 主要 是 指 对 给 定语 言 /区 域 下 的 输出 或 信息 展现 进行 格式 化 。 例 如 美国 、 中 国 、 法 国 在 日 期 中 的 年 、 月 、 日 的 顺序 就 各 不 相同 ， 数 字 表 示 上 的 干 分 位 符号 、 小 数 点 
程序 至 少 必须 能 够 正确 处 理 和 输出 对 应 形式 的 日 期 、 数 字 和 货币 表示 。 软 件 通 常会 根据 Locale 值 来 确定 其 与 语言 文化 习俗 相关 的 行 


中 文 ， 但 它们 的 文化 习俗 却 又 不 尽 相 同 。 同 时 ， 一 个 国家 也 可 能 会 存在 多 种 官方 语言 。 例 如 ， 加 拿 大 


区 域 标识 符 LCID (Locale ID) 对 世界 各 地 区 及 语言 进行 统一 标识 。LCID 至 少 由 语言 标识 符 和 区 域 标 识 符 两 部 分 组 成 。POSIX 标 准 的 区 域 标识 符 的 形式 
区 域 标识 符 为 zh_CN、zh_HK、zh_TW、zh_MO 等 。 同 样 ， 加 拿 大 使 


英语 和 法 语 的 区 域 标识 符 分 别 为 en_CA 和 fr CA, SAS Viya 有 自己 定义 的 Locale 标 识 


、 本 地 习俗 及 文化 相关 的 信息 ， 例 如 数据 格式 、 物 理 地 区 文化 、 当 地 文化 习俗 国家 或 地 区 的 数字 、 日 期 


LOCALE= 的 值 可 以 在 SAS 启 动 时 指定 ， 也 可 以 在 SAS 启 动 后 通过 OPTIONS 语 句 再 做 更 改 。 系 统 选项 LOCALE= 通 常会 影响 SAS 程 序 中 语言 相关 的 格式 (Format) 和 输入 格式 (Informat) 、 排 序 及 一 些 


系统 选项 等 。 是 在 SAS 启 动 时 指定 还 是 / 


查看 和 修改 LOCALE 的 代码 如 下 : 


启动 后 再 指定 系统 选项 LOCALE= ， 所 影响 的 系统 选项 也 不 同 。 


proc 
run; 


options option=locale; 


options locale=zh_TW; 


proc 
run; 


options option=locale; 


代码 运行 日 志 如 图 2.39 所 示 。 


proc options option=locale; 


run; 


SAS (R) PROPRIETARY SOFTWARE RELEASE V.@3.01 TS1M6 


LOCALE=ZH_CN 


实际 时 间 
CPU 时 间 


options 


proc options option=locale; 
run; 


指定 SAS 会 话 中 的 一 组 属性 ， 其 反映 某 一 地 理 区 域 的 语言 、 当 地 习作 
NOTE: “PROCEDURE OPTIONS” 所 用 时 间 《总 处 理 时 间 ) : 


8.88 秒 
0.01 秒 


locale=zh_Tw; 


SAS (r) Proprietary Software Release V.03.01 TS1M6 


指定 SAS 工作 阶段 中 的 一 组 特性 ， 以 反映 某 个 地 理 区 域 的 语言 、 当 地 惯例 和 文化 。 
NOTE: 已 使 用 PROCEDURE OPTIONS (总 处 理 时 间 ) : 


LOCALE=ZH_TW 


实际 时 间 
CPU 时 间 


@.01 秒 
9.00 $b 


图 2.39 SAS 客 户 端 会 话语 言 /区 域 选项 LOCALE= 


从 日 志 的 最 后 几 行 可 以 看 出 生成 的 日 志 已 经 以 繁体 中 文 的 形式 来 显示 了 。 


(2) 


CAS 会 话 选 项 LOCALE= 


CAS 会 话 选 项 LOCALE= 将 会 影响 CAS 计 算 和 处 理 时 语言 相关 的 格式 、 输 入 格式 和 默认 排序 机 制 。 启 动 CAS 会 话 时 若 不 指定 LOCALE= 选 项 ， 则 CAS 会 话 的 LOCALE= 选 项 值 与 当前 SAS 客 户 端 会 话 的 系统 


选项 LOCALE= 值 相同 。 也 可 以 通过 LOCALE= 会 话 选 项 改变 启动 的 CAS 会 话 的 Locale 值 ， 代 码 如 下 : 


cas mysess sessopts=(timeout=1800 locale=zh CN); 


查看 修改 后 会 话 选 项 LOCALE= 的 值 的 代码 如 下 : 


data 


null ; 


x=GETSESSOPT ("mysess", "locale") ; 


put x=; 


run; 


读者 可 自行 提交 上 述 代码 并 在 日 志 中 查看 输出 结果 。 可 以 看 到 CAS 会 话 mysess 的 LOCALE= 选 项 值 为 zh_CN。 


2.4 SAs 代 码 在 哪里 执行 


2.1 节 介绍 了 运行 SAs 代 码 的 各 种 方式 。 当 通过 SAs studio 提交 SAs 代 码 或 在 SAs studio 的 后 台中 提交 SAs 作 业 运 行 时 ， 启 动 的 SAs Workspace Server 进 程 需要 执行 提交 的 任务 。 直 接 通 过 sas 命 令 以 批 
处 理 方式 或 交互 式 行 模式 运行 SAs 代 码 ，sas 命 令 启动 的 SAs 进 程 执 行 SAs 代 码 。SAS Workspace Server 进 程 或 sas 命 令 启动 的 SAs 进 程 都 是 SAS 客 户 端 会 话 。 


SAS 客 户 端 会 话 用 于 访问 SAS 逻 辑 库 、 执 行 SAS 语 言 实现 的 任务 并 获取 结果 。CAS 会 话 用 于 访问 CAS 服 务 器 的 内 存 表 ， 最 终 通过 执行 ACTION 完 成 任务 。 在 CAS 服 务 器 内 执行 的 过 程 (例如 
CARDINALITY 和 NNET 过 程 ) ， 都 需要 使 用 CAS 会 话 与 CAS 服 务 器 进行 通信 。 当 提交 这 些 过 程 时 ，SAS 客 户 端 会 话 将 这 些 过 程 解释 为 相应 的 ACTION ， 并 确定 在 CAS 会 话 中 如 何 运行 这 些 ACTION。 在 使 
CAS 会 话 之 前 ， 开 发 人 员 需 要 编写 代码 建立 CAS 会 话 或 通过 设置 autoexec.sas 文 件 自动 建立 CAS 会 话 。 此 外 ，SAS 客 户 端 会 话 也 用 于 在 SAS Viya 环 境 中 执行 不 需要 使 用 CAS 服 务 器 的 任务 。 例 如 DATA 步 中 的 
INFILE、INPUT 语 句 ， 以 及 使 用 SGPLOT 过 程 创建 图 形 。 


2.4.1 DATA 步 


DATA 步 用 于 操作 和 准备 数据 ， 它 可 以 通过 CAs 会 话 或 SAs 客 户 端 会 话 执行 。DATA 步 在 何 处 运行 取决 于 DATA 步 中 操作 的 表 的 位 置 。 如 果 表 存在 于 非 CAs 引 警 的 SAs 逻 辑 库 中 ， 则 DATA 步 在 SAS 客 户 端 
会 话 中 运行 。 如 果 表 存在 于 CAs 中 ， 则 DATA 步 在 CAS 会 话 中 运行 。 如 果 DATA 步 中 使 用 到 多 个 表 ， 则 这 多 个 表 部 分 表 存 储 在 非 CAs 引 警 的 SAs 逻 辑 库 中 ， 部 分 表 存 储 在 CAs 中 ，DATA 步 也 只 能 在 SAs 客 户 端 


会 话 中 运行 。 


此 外 ， 不 是 所 有 的 DATA 步 的 语句 或 元 素 都 可 以 在 CAS 上 运行 。DATA 步 中 如 果 有 INFILE、INPUT 和 DATALINES 语 句 ， 则 该 DATA 步 只 能 在 SAS 客 户 端 会 话 中 运行 。 


DATA 步 在 SAS 客 户 端 会 话 中 只 能 以 单线 程 的 方式 执行 。 当 DATA 步 在 CAS 会 话 中 运行 时 ，DATA 步 可 能 是 以 单线 程 ， 也 可 以 是 以 多 线程 的 方式 执行 。 默 认 情 况 下 ，DATA 步 在 CAS 中 是 多 线程 并 行 运行 
的 ， 每 个 线程 运行 一 部 分 数据 。 相 同 的 DATA 步 代码 分 别 在 单线 程 和 多 线程 的 环境 中 运行 时 ， 其 结果 可 能 会 有 所 不 同 。 在 开发 SAs Viya 应 用 时 ， 理 解 DATA 步 在 哪里 运行 、 其 对 结果 可 能 产生 的 影响 ， 以 及 如 
何 进行 控制 ， 这 些 都 是 非常 重要 的 ， 这 点 将 在 第 4 章 着 重 讨论 。 


24.2 CAS 语言 


CAS 语 言 的 赋值 语言 、 过 程控 制 语句 和 函数 等 是 由 SAS 客 户 端 会 话 执行 的 ， 而 ACTION 则 会 提交 到 CAS 服 务 器 会 话 执行 。 关 于 CAS 语 言 元 素 请 参考 本 书 第 8 章 。 


注意 ”这 里 的 函数 是 指 CAS 语 言 中 的 函数 ， 其 不 同 于 SAS 函 数 。 


2.4.3 SAS Viya 的 基本 过 程 


(1) CASUTIL 过 程 


CASUTIL 过 程 可 以 操作 CAS 表 、SAS 数 据 集 和 外 部 文件 。 该 过 程 主要 可 以 进行 数据 传输 、 查 看 和 列 出 表 和 文件 的 信息 、 删 除 表 中 的 数据 和 表 。CASUTIL 过 程 在 执行 时 首先 由 SAS 客 户 端 会 话 解 释 为 
ACTION， 然 后 再 在 CAS 会 话 中 执行 相应 的 ACTION。 


(2) MDSUMMARY 过 程 


MDSUMMARY 过 程 用 于 并 行 计算 CAs 数 据 表 中 指定 变量 的 基本 描述 性 统计 量 。 下 面 是 MDSUM MARY 过 程 的 示例 代码 : 


libname mycaslib cas sessref=mysess caslib=casuser; 


proc mdsummary data=mycaslib.hmeq; 
var BAD CLAGE CLNO DEBTINC DELINQ DEROG LOAN MORTDUE NINQ VALUE YOJ; 
output out=mycaslib.mdsumstat; 

run; 


(3) 其 他 数据 管理 过 程 


在 SAS Viya 中 ， 还 可 以 使 用 数据 管理 过 程 ， 例 如 PROC APPEND, PROC CONTENTS, PROC DATASETS 等 。 大 多 数 过 程 都 会 在 SAS 客 户 端 会 话 执行 ， 与 之 前 SAS 版 本 中 的 用 法 和 功能 相同 。 一 些 过 
程 ， 例 如 PROC CONTENTS, PROC PRINT， 昌 然 也 可 以 操作 CAS 表 ， 但 只 是 简单 地 从 CAS 中 请 求 表 的 信息 ， 并 不 是 真正 地 在 CAS 上 执行 。 在 这 些 过 程 中 ，FORMAT 过 程 用 于 创建 用 户 自 定义 的 格式 ,该 过 


程 是 在 SAS 客 户 端 会 话 中 执行 并 创建 自 定义 格式 ， 所 创建 的 格式 可 加 载 到 CAS 会 话 中 供 CAS 表 使 用 。FORMAT 过 程 及 相关 概念 请 参考 本 书 的 4.5 节 。 而 TRANSPOSE 过 程 只 有 当 输 入 输出 数据 都 是 CAS 表 时 ， 
才 在 CAS 会 话 中 执行 ， 否 则 该 过 程 在 SAS 客 户 端 会 话 中 执行 。 


24.4 ”SAS 可视化 数据 建 模 和 机 器 学 习 过 程 


在 SAS Viya 平 台 上 ， 随 着 SAs 可 视 化 数据 建 模 和 机 器 学 习 产品 的 部 署 会 部 署 一 些 统计 、 数 据 挖 气 和 机 器 学 习 过 程 ， 例 如 PROC PCA, PROC NNET。 这 些 过 程 的 语法 形式 与 基于 SAS 9 智能 平台 的 过 程 类 
似 ， 其 运行 时 由 SAS 客 户 端 会 话 解释 为 对 应 的 ACTION 提 交 到 CAS 会 话 中 执行 。 


2.4.5“DS2 语 言 


DS2 是 一 种 适用 于 高 级 数据 操作 的 SAS 私 有 编程 语言 ， 其 功能 与 DATA 步 有 些 重 又 。 相 较 于 SAS 语 言 ，DS2 语 言 包括 额外 的 数据 类 型 、ANSI SQL 类 型 、 编 程 结构 元 素 ， 以 及 用 户 定义 方法 和 包 。DS2 的 数 


据 操作 逻辑 还 可 转换 在 SAS Embedded Process 中 执行 。 


DS2 过 程 可 从 SAS 客 户 端 会 话 或 CAS 会 话 提交 DS2 语 句 执行 。 在 CAS 会 话 中 ， 可 使 用 DS2 过 程 (指定 SESSRET= 或 SESSUUID= 选 项 ) 和 在 CAS 过 程 中 使 用 runDS2 ACTION 运 行 DS2 代 码 。 实 际 上 ， 在 
CAS 会 话 中 运行 的 DS2 过 程 中 的 DS2 代 码 也 会 解释 为 runDS2 ACTION 执 行 。 


2.4.6 ”SAS 函数 和 CALL 例 程 


SAS 函 数 是 SAS 编 程 语言 的 组 件 ， 可 接受 参数 ， 可 执行 计算 或 其 他 操作 并 返回 值 。 函 数 返回 值 可 用 于 赋值 语句 或 表达 式 的 其 他 地 方 。 例 如 UPCASE 函 数 用 于 将 字符 串 中 的 小 写字 母 转变 成 大 写字 母 并 返 
回 。SAs 提 供 了 很 多 函数 ， 开 发 人 员 也 可 以 编写 自己 的 函数 。 函 数 可 用 于 DATA 步 编程 语句 、WHERE 表 达 式 、 宏 语言 语句 、REPORT 和 SQL 过 程 中 。CALL 例 程 可 转换 变量 值 或 执行 其 他 系统 函数 。CALL 例 程 
与 函数 类 似 ， 与 函数 不 同 的 是 CALL 例 程 不 可 用 于 赋值 语句 或 表达 式 。 所 有 的 CALL 例 程 均 可 通过 CALL 语 句 调用 。 


注意 ， 这 里 提 到 的 SAS 函 数 不 同 于 CAS 语 言 中 的 函数 。CAS 语 言 中 的 函数 请 参考 8.3.7 节 。 


在 SAS Viya 的 SAs 函 数 和 CALL 例 程 中 ， 仅 有 部 分 可 在 CAS 会 话 中 执行 ， 具 体 可 查看 对 应 的 SAs 函 数 和 CALL 例 程 描 述 中 的 限制 。 


2.4.7 ”格式 和 输入 格式 


格式 (Format) 是 在 显示 数据 值 或 输出 数据 值 时 应 用 的 模式 或 执行 的 指令 。 输 入 格式 (Informat) 是 在 数据 值 作为 输入 读 取 时 应 用 的 数据 模式 或 执行 的 指令 的 SAS 语 言 类 型 。 


SAS Viya 为 各 种 数据 类 型 ， 数 字 、 字 符 、 日 期 、 时 间 及 时 间 戳 ， 提 供 了 相应 的 格式 和 输入 格式 。 其 所 提供 的 格式 和 输入 格式 ，WORDS、WORDSF、WORDDATE 和 WEEKDATE 格 式 及 输入 格式 在 CAs 
中 无 效 。SAS Viya 还 支持 用 户 自 定义 格式 和 输入 格式 。 本 书 第 4 章 的 4.5 节 会 详细 介绍 在 CAs 表 中 如 何 应 用 自 定义 格式 。 
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SAS Viya 支 持 宏 (Macro) ， 但 宏 只 能 在 SAS 客 户 端 会 话 中 执行 。 宏 可 用 来 产生 在 CAS 服 务 器 上 执行 的 代码 ， 但 宏 本 身 不 能 在 CAS 服 务 器 上 执行 。 在 SAS Studio 中 提交 如 下 代码: 


options mprint; 


libname locallib '/opt/sas/data'; 
cas mysess host="cashost" port=5570; 


macro loaddata (mytable) ; 

proc casutil; 
load data=locallib.&mytable casout="&mytable"; 
run; 

quit; 

mend loaddata; 

%Sloaddata (hmeq) ; 


运行 结果 日 志 如 图 2.40 所 示 ， 可 以 看 到 ， 宏 %loaddata 产 生 代码 将 locallib 逻 辑 库 中 的 表 hmeq 加 载 到 了 CAS 中 。 


60 cas mysess host="cashost" port=5570; 

NOTE: The session MYSESS connected successfully to CAS server cashost using port 557@. The UUID is 
a7b7de0@2-af66-8649 -8dd8-6dc75b761e6f. The user is sasdemo and the default CASLIB is CASUSER(sasdemo). 

NOTE: The SAS option SESSREF was updated with the value MYSESS. 

NOTE: The SAS macro _SESSREF_ was updated with the value MYSESS. 

NOTE: The session is using @ workers. 

61 

62 %macro loaddata(mytable) ; 

63 proc casutil; 

64 load data=locallib.&mytable casout="&mytable"; 

65 run; 

66 quit; 

67 %mend loaddata; 

68 %loaddata(hmeq) ; 

MPRINT(LOADDATA) : proc casutil; 

NOTE: The UUID 'a7b7de@2-af66-8649-8dd8-6dc75b761e6f' is connected using session MYSESS. 

MPRINT(LOADDATA) : load data=locallib.hmeq casout="hmeq"; 

NOTE: LOCALLIB.HMEQ was successfully added to the "“CASUSER(sasdemo)" caslib as “hmeq". 

MPRINT(LOADDATA): run; 


MPRINT(LOADDATA): quit; 


NOTE: “PROCEDURE CASUTIL” 所 用 时 间 《 总 处 理 时 间 ) : 
实际 时 间 0.21 # 
CPU 时 间 0.00 # 


图 2.40” 宏 产生 可 在 CAS 上 执行 的 代码 日 志 


2.5 SAS Viya 与 SAS 9 协同 开发 


在 引入 SAS Viya 时 ， 企 业 可 能 已 经 存在 了 SAS 9 环境 ， 开 发 人 员 可 能 期 望 在 一 个 平台 中 同时 利用 两 者 的 功能 和 计算 资源 。SAS/CONNECT 可 以 在 SAS Viya 平 台 与 已 有 SAS 9 环境 之 间 创 建 桥 ， 使 开发 人 


员 在 两 个 环 


SAS/CONNECT 是 提供 分 布 式 和 并 行 SAS 环 境 的 管理 、 访 问 
SAS Viya 的 能 力 进行 分 析 。 而 SAS Viya 的 CAS 中 


中 ， 从 而 使 
代码 。 


在 使 
现 数据 损坏 。 


本 书 的 


境 之 间 协 同 工 作 。 这 样 ， 开 发 人 员 可 以 同时 使 


已 有 SAS 9 环境 的 功能 和 特性 ， 并 利 


SAS Viya 的 数据 挖掘 和 机 


器 学 习 能 力 。 


H 


和 处 理 数据 的 能 力 的 工具 集 ， 


支持 所 有 的 SAS 版 本 。 利 


SAS/CONNECT， 开 发 人 员 可 以 从 已 有 的 SAS 9 环境 无 颖 


发 的 模型 


第 7 章 将 会 详细 介绍 在 SAS Viya 中 如 何 实现 SAS Viya 和 SAS 9 环境 的 协同 开发 。 


2.6 第 三 方 开发 语言 开发 SAs Viya 应 用 


SAS Viya 的 开放 性 为 其 


他 语言 的 开发 者 提供 了 便捷 的 利 


于 SAS Viya 的 应 


2.7 本章 小 结 


本 章 结合 SAS Viya 的 架构 对 开发 基于 SAS Viya 的 应 
有 了 一 个 系统 并 且 全 


方 语言 的 开发 SAS Viya 应 


开发 。 本 书 的 第 9 章 将 会 详细 介绍 如 何 利 


H 


的 各 个 方 
面 的 认识 ， 这 将 对 本 书 


面 各 个 : 


[= 


的 代码 可 推送 到 SAs 9 环境 的 模型 库 用 于 部 署 和 决策 ， 并 提供 版 本 控制 和 管理 。 在 SAS Viya 中 还 可 以 继续 使 


也 移动 数据 到 SAS Viya 
SAS 9 的 项 目 和 定制 


SAS/CONNECT 进 行 SAS Viya 和 SAS 9 协同 开发 时 需要 注意 SAS Viya 和 SAS 9 的 会 话 编码 必须 兼容 。 在 SAS Viya 中 的 会 话 编码 是 UTF-8，SAS 9 环境 的 编码 必须 与 此 兼容 ， 否 则 在 传输 时 可 能 会 出 


SAS Viya 分 析 能 力 的 可 能 。 通 过 SAS Viya 提 供 的 第 三 方 开发 语言 
第 三 方 语言 Python、Lua 和 REST API 来 开发 基于 SAS Viya 的 应 用 。 


进行 了 简单 讨论 。 相 信 大 家 在 读 完 本 章 后 对 SAS 代 码 、SAS Viya 中 的 数据 访问 、SAS Viya 与 已 有 SAS 9 系统 的 协同 开发 ， 以 及 利 
节 的 理解 打下 基础 。 


， 开 发 人 员 可 使 


Python、Java、Lua 语 言 ， 以 及 REST API 接 口 进行 基 


第 3 章 CAS 的 数据 读 写 和 管理 


能 够 读 写 来 自 不 同系 统 不 同 格式 的 数据 ， 并 对 数据 进行 有 效 的 组 织 和 管理 ， 是 一 个 成 熟 的 数据 分 析 平 台 应 具 


要 求 将 数据 先 加 载 到 内 存 中 成 为 一 个 内 存 表 。 


备 的 时 


要 功能 和 特征 之 一 。 在 SAS Viya 的 架构 下 ，CAs 服 务 器 为 了 实现 高 性 能 分 析 和 计算 ， 


本 章 在 内 容 上 分 成 4 个 小 节 ， 详 细 介绍 了 CAS 服 务 器 如 何 把 外 部 的 数据 加 载 到 CAs 服 务 器 中 、 如 何 组 织 和 管理 内 存 中 与 内 存 外 的 数据 ， 以 及 如 何 管理 CAs 服 务 器 中 的 数据 。 


3.1 


本 节 先 总 结 一 下 CAS 会 话 、CASLIB 和 CAs 引 


CAS 会 话 、CASLIB 和 CAS 引 警 逻 辑 库 


擎 逻辑 库 三 者 之 间 的 关系 : 


运行 在 WORKSPACE SERVER 上 的 代码 使 


逻辑 库 必 须 通过 CAs 会 话 才能 访问 CASLIB 中 的 数据 。 


3.2 ”CAS 中 的 数据 类 型 


CAS 中 的 数据 类 型 是 指 CASLIB 中 CAS 表 的 数据 类 型 。 在 介绍 如 何 把 数据 加 载 到 CAS 内 存 之 前 ， 首 先 介绍 CAS 表 支持 的 数据 类 型 ， 希 望 大 家 在 进行 数据 加 载 时 能 


CAS 引 擎 逻辑 库 引 上 


者 可 以 在 代码 中 设置 目标 CAS 表 中 各 列 的 数据 类 型 ， 详 细 内 容 会 在 3.3 节 中 介绍 。 


不 同类 型 的 数据 意味 着 所 占 


CAS 服 务 器 支持 的 数据 类 型 有 三 种 ， 


(1) DOUBLE 


DOUBLE 类 型 代表 一 个 8 字 节 长 度 的 有 符号 型 、 双 精度 、 浮 点 型 数据 。CAS 中 所 有 数值 的 类 型 都 是 DOUBLE 类 型 。 所 有 的 数值 型 数据 一 旦 加 载 到 CAS 内 存 中 ， 


(2) CHAR (n) 


的 CAS 内 存 空间 大 小 不 同 。 传 统 的 SAS 数 


CAS 内 存 中 的 数据 ， 运 行 在 CAS 服 务 器 中 的 代码 使 


居 集 只 支持 两 种 类 型 的 数 


a: 数值 型 和 字符 型 。 


CASLIB 来 管理 和 使 用 CAs 数 据 。 但 不 论 是 会 话 CASLIB 还 是 全 局 CASLIB，CAS 引 擎 


注意 加 载 之 


后 的 类 型 变化 。 另 外 ， 开 发 


但 在 CAS 服 务 器 上 ，CAS 表 的 数据 类 型 则 有 所 改变 。 


体 如 下 。 


定 长 字符 类 型 。 与 传统 SAS 集 的 字符 类 型 相同 ， 这 里 的 n 表 示 的 是 字 节 数 。 定 长 是 指 不 论 字符 


空格 补 全 。 


(3) VARCHAR (n) 


变 长 字符 类 型 。 不 同 于 CHAR (n) ， 这 里 的 n 是 指 字符 


BAY 


E: 
日 


的 实际 长 度 是 多 少 ， 


最 大 字符 个 数 ， 而 不 是 字 节 个 数 。CAs 服 务 器 只 支持 UTF-8 编 码 的 数据 ， 所 有 加 载 的 CAs 内 存 的 数据 者 


该 类 型 字符 


数值 类 型 列 一 得 


lL 转 换 成 DOUBLE 类 型 。 


的 最 终 长 度 一 得 


为 n 个 字 节 。 超 过 mn 


个 字 节 的 字 串 将 被 截断 ， 不 足 n 个 字 


了 会 转换 成 UTF-8 的 编码 。 由 于 在 UTF-8 


的 编码 体系 中 ， 不 同 语言 的 字符 会 占 
的 。 比 如 ， 列 NAME 的 类 型 为 VARCHAR (8) , 
量 是 由 三 个 字母 和 两 个 汉字 组 成 的 ， 它 的 字符 
档 ” 的 字符 串 长 度 为 6， 但 实际 占 


不 同 的 字 节 长 度 ， 


了 18 个 字 节 。 


此 


因此 用 字符 的 长 度 来 代替 字 节 的 长 度 可 


味 着 它 最 多 容纳 8 个 字符 ， 但 是 当 NAME 的 实际 值 长 度 小 于 8 个 字符 时 ， 其 占 
长 度 为 5 


由 于 VA 


以 更 好 地 满足 CAS 服 务 器 


Ea 


际 化 的 需求 。 变 长 是 指 各 个 字符 串 实际 占用 的 字 节 个 数 是 由 其 实际 长 度 来 决定 


(每 个 英文 字母 的 UTF-8 编 码 占 1 个 字 节 ， 每 个 汉字 的 UTF-8 编 码 占 3 个 字 节 ) , SE 
RCHAR 的 这 一 特点 ， 当 CAs 表 中 某 一 列 的 字符 串 在 各 行 之 间 的 差别 


的 内 存 字 节 个 数 则 由 其 实际 值 来 决定 。 例 如 ， 值 为 “SAS 编 程 ” 的 NAME 变 
款 上 其 只 占用 了 9 个 字 节 的 内 存 。NAME 的 另 一 个 值 “ 编 程 帮助 文 
VARCHAR 比 使 用 CHAR 类 型 更 能 节省 内 存 空间 。 


比较 大 时 ,使 


Xx 
an 
= 


下 面 的 示例 代码 将 向 大 家 展示 CAS 中 CHAR 与 VARCHAR 的 


data caslibry.test; 
length region char $ 16; 
region_char=" 北 京 市 朝阳 区 利 泽 东 路 "; 
length region varchar 0 varchar(16); 
region varchar _0=" 北 京 市 朝阳 区 利 泽 东 路 "; 
length region Varchar 1 varchar(3); 
region varchar 1=" 利 泽 东 路 "; 
length region Varchar 2 varchar(3); 
region varchar 2="1ize 东 路 "; 

run; = 7 

proc print data=caslibry.test; 

quit; 


其 中 CASsLIBRY 是 一 个 CASs 引 警 逻 辑 库 ， 因 此 最 终生 成 的 数据 是 存放 在 CAS 内 存 中 的 。 在 PRINT 的 输出 结果 中 可 以 看 到 ，CHAR 类 型 的 变量 值 被 截断 了 ， 如 图 3.1 所 示 。 


region_char | region_varchar_0 region_varchar_1 | region_varchar_2 


北京 市 朝阳 北京 市 朝阳 区 利 绎 东 路 | 利 泽 东 liz 


图 3.1 。 char 与 varchar 的 区 别 


REGION_CHAR 被 截断 了 ， 这 是 由 于 ”北京 市 朝阳 区 利 泽 东 路 ”在 UTF-8 编 码 下 需要 30 个 字 节 ， 而 REGION_CHAR 被 定义 成 定 长 字符 类 型 CHAR (n) ， 此 处 n 等 于 16， 即 只 能 容纳 16 个 字 节 ， 也 就 是 5 
个 中 文字 符 。REGION_VARCHAR_0 则 可 以 容纳 16 个 中 文字 符 。 变 量 REGION_VARCHAR_1 和 REGION_VARCHAR_2 的 长 度 为 3， 只 能 容纳 3 个 字符 ， 因 此 它们 的 值 也 被 截断 了 。 虽 然 字 符 长 度 相 同 ， 但 是 
REGION_VARCHAR_1 占 用 了 9 个 字 节 ， 而 REGION_VARCHAR _2 却 只 占用 了 3 个 字 节 。 


3.3 “加载 数 据 到 CAs 服 务 器 


在 将 数据 加 载 到 CAs 服 务 器 内 存 之 前 ， 需 要 清楚 被 加 载 的 源 数据 的 位 置 ， 因 为 不 同 来 源 的 数据 会 用 到 不 同 的 加 载 方式 ， 源 数据 包括 文件 和 数据 库 表 。 


3.3.1 加载 客户 端 文件 到 CAS 服 务 器 


相对 于 CAS 服 务 器 来 说 ，WORKSPACE SERVER 就 是 一 个 客户 端 。 客 户 端 文件 就 是 指 WORKSPACE SERVER 可 以 访问 到 的 数据 源 。 加 载 这 种 文件 的 数据 流 如 图 3.2 所 示 。 


CAS 


worker 


CAS CAS 
CONTROLLER|| worker 


WORKSPACE 
SERVER 


数据 源 


图 3.2 ”加 载 客户 端 文 件 


加 载 文件 到 CAS 服 务 器 的 方法 有 如 下 两 种 。 


第 一 种 是 通过 DATA 步 写 数据 到 CAS3 引 擎 逻辑 库 中 。CAS 引 擎 歇 辑 库 正 是 CAS 服 务 器 中 相应 的 CASLIB 的 映射 ，CASLIB 代 表 着 CAS 服 务 器 上 的 一 块 内 存 区 域 ， 向 CAS 引 掌 逻 辑 库 中 写 入 数据 就 是 在 CASLIB 
中 创建 或 追加 一 个 CAS 表 ， 也 就 是 把 数据 加 载 到 CAS 服 务 器 的 内 存 中 。Viya 平 台 上 的 DATA 步 支持 的 数据 源 类 型 与 SAS V9 中 的 DATA 步 相同 ， 包 括 SAS 数 据 集 、TXT 文 件 、EXCEL 文 件 ， 等 等 。 在 DATA 步 
中 ,开发 者 也 可 以 使 用 FORMAT 语 句 指定 目标 CAS 表 中 各 列 的 数据 格式 。 关 于 DATA 步 的 更 多 知识 请 参考 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 用 》 一 书 中 的 描述 ， 这 里 不 再 玲 述 。 下 面 的 例子 加 
载 了 SAS 数 据 集 和 一 个 TXT 文 件 ，TXT 文 件 的 部 分 内 容 如 下 : 


310 oak pedestal table 329.99 
311 maple pedestal table 369.99 
312 brass floor lamp 79.99 


示例 代码 如 下 : 


/* 创 建 会 话 ,然后 为 该 会 话 的 active CASLIB 创 建 CAS 引 擎 逻辑 库 */ 
cas mysess 1 cashost="ssscrdlax06" casport=5570 uuidmac=MyUUID; 
libname caslibry cas host="ssscrdlax06" port=5570 uuidmac=MyUUID; 


/* 加 载 SAS 数 据 集 */ 
data caslibry.cars; 
set sashelp.cars; 


run; 
/* 加 载 一 个 文件 */ 
data caslibry.bom; 


infile "/install/users/sasdemo/data.txt"; 
input ID $ material $ part $ product$ price; 


第 二 种 方法 是 使 


PROC CASUTIL。PROC CASUTIL 可 以 实现 多 种 功能 ， 


包含 了 多 种 语句 ， 后 面 的 章节 会 逐一 介绍 ， 这 里 只 关注 其 用 于 加 载 数据 的 LOAD 语 名 : 


PROC CASUTIL <OUTCASLIB= caslib 名 称 SESSREF= 会 话 名 称 >; 
LOAD DATA=SAS 数 据 集 的 名 称 |FILE=" 文 件 路 径 " < 选项 >; 


QUIT; 


PROC CASUTIL 的 两 个 可 选 选项 OUTCASLIB 和 SESSREF 的 含义 如 下 。 


- OUTCASLIB 必 须 在 会 话 SESSREF 当 中 ， 除 非 它 是 全 局 CASLIB; 不 设置 SESSREF 时 使 用 系统 默认 会 话 ， 即 最 近 创建 的 会 话 


- 数据 要 加 载 到 OUTCASLIB 中 ， 成 为 OUTCASLIB 中 的 CAS 表 ; 不 设置 OUTCASLIB 选 项 时 使 用 会 


在 LOAD 语 句 中 ，DATA 选 项 用 于 加 载 SAS 数 据 集 ，FILE 选 项 


支持 不 完全 一 致 ， 更 多 信息 如 表 3.1 所 示 。 


OUTCASLIB= CASLIB 


名 称 ” 


APPEND 
COMPRESS 
IMPROTOPTIONS= ( 
FILETYPE="AUTO"| AUTO 将 根 

| "BASESAS" | "CSV" 

| "EXCEL" | "HDAT" | 


"XLS" 


< 选项 >) 


选项 名 称 
* CASOUT=“ 表 名 称 ” 生成 的 CAS 


会 话 当 前 活动 的 CASLIB 作 为 OUTCASLIB 。 


于 加 载 其 他 类 型 文件 。 而 后 面 的 “< 选项 > ”提供 了 加 载 SAS 数 据 集 或 加 载 其 他 类 型 文件 时 所 需要 的 更 多 信息 ， 


表 3.1 LOAD 语 句 中 的 DATA 和 FILE 选 项 


表 的 名 称 


7 i, RPOC CASUTIL 的 OUTCASLIB 选项 是 


追加 到 CASOUT 表 一 天 一 | 


把 数据 压缩 之 后 加 载 到 内 容 


FILETYPE 指定 了 文件 类 型 


据 文件 的 后 缀 名 来 判断 文件 类 型 ， 


BASESAS 是 指 SAS 数 据 集 ，HDAT 是 SASHDAT 
格式 的 数据 ，EXCEL 用 于 XLSX 格式 的 文件 , XLS 


就 是 指 XLS 格式 文件 。 不 同 的 文件 类 型 有 不 同 的 选 
项 ， 具 体 将 在 表 3.2 中 介绍 


这 些 选项 对 DATA 与 FILE 的 


a See 


( 续 ) 


RRR PART FILE 
GROUPBY (变量 名 <| ge. a ae jute SH 
AEE >) 

ORDERBY= (变量 名 < 一 个 或 多 个 变量 排序 须要 和 GROUPBY 一 
变量 名 … ne 
LABEL= awe 为 生成 的 CAS 表 添 加 标签 ， 最 长 256 个 字符 ”是 | 
pe 把 加 载 后 的 CAS 表 变 成 一 个 全 局 表 。 具 体 请 参考 是 
3.4.6 T 
替换 同名 的 CAS 表 。 但 是 无 法 替换 已 存在 的 同名 = 
REPLACE MG cae 是 
COPIES= 整数 将 生成 的 CAS 表 赋 值 多 份 


注意 * 对 于 FILE 是 必须 设置 的 选项 。 


下 面 的 例子 是 使 


PROC CASUTIL 来 实现 DATA 步 的 功能 : 


proc casutil sessref=mysess 1; 
load data=sashelp.cars casout="cas cars" replace compress; 
load file="/install/users/sasdemo/nile.sas7bdat" 
casout="cas_nile" 
importoptions=(filetype="BASESAS") ; 
load file="/install/users/sasdemo/cars.sashdat" 


quit; 


casout="cas_cars 


hdat" 


importoptions=(filetype="hdat") ; 
load file="/install/users/sasdemo/data.txt" 


casout="cas_data" 


importoptions=(filetype="csv" 


delimiter=" " 
getnames=false 
vars=((name="ID" 


TYPE="double"), 


(name="material" TYPE="VARCHAR") , 


name="part" 


TYPE="VARCHAR") , 


( 
(name="product" TYPE="VARCHAR") , 
( 


name="price" 


TYPE="double") )); 


对 于 


FILE 加 载 文件 而 言 ， 


选项 MPROTOPTIONS 中 包含 了 很 多 与 文件 


属性 相关 的 其 他 选项 ， 有 些 选 项 只 能 


表 3.2 文件 属性 选项 


于 特定 的 FILETYPE， 如 表 3.2 所 示 。 


选项 名 称 默认 值 | 文件 类 型 


DELEMITER=“ 字 符 串 ” 分 隔 符 ee |o 
ENCODIGN=“ 编 码 名称 ” 文件 的 编码 “utf-8” | CSV 
*FILET YPE= 
“AUTO” | “BASESAS” | “CSV” | “DTA” 文件 类 型 “auto”| ALL 
| “EXCEL” | “HDAT” | “LASR” | “XLS” 四 
( 续 ) 
选项 名 称 文件 类 型 
CSV 
GETNAME=TRUEIFALSE 是 否 把 第 一 行 数据 作为 列 名 TRUE | EXCEL 
XLS 
GUESSROWS= 整数 值 用 于 决定 列 的 类 型 的 行 数 CSV 
STRIPBLANKS=TRUE | FALSE 是 否 删 除 字符 串 值 的 前 后 空格 CSV 
VARCHARS=TRUE|FALSE 是 否 把 字符 串 列 设置 为 VARCHAR 类 型 CSV 
ak T 
FORMATTEDLENGTH= 整数 值 a : 
LABEL= 和 二 FORMATTEDLENGTH 格式 化 后 的 长 度 
LABEL 标签 CSV 


LENGTH= 整数 值 

NAME=“ 字 符 串 ” 

TYPE= “CHAR” | “DOUBLE” | “VARCHAR” ) 
<, (下 一 列 信息 描述 )…>) 


LENGTH CHAR 类 型 列 的 长 度 
NAME 列 名 称 
TYPE 列 类 型 


注意 * 为 必须 设置 的 选项 。 


3.3.2 ”加 载 CAS 端 文件 到 CAS 服 务 器 


CAS 端 文件 是 指 在 定义 CASLIB 时 指定 的 源 数据 。CAS 服 务 器 通过 CASLIB 来 组 织 和 管理 数据 ， 即 使 未 经 加 载 过 程 ，CAS 服 务 器 (而 不 是 WORKSPACE SERVER) 也 可 以 访问 CASLIB 所 引用 的 文件 ， 但 这 
些 文件 不 会 被 自动 加 载 到 CAS 服 务 器 的 内 存 中 。 加 载 这 些 文件 的 数据 流 如 图 3.3 所 示 。 


WORKSPACE cee 


SERVER 


CONTROLLER 


图 3.3 加载 CAS 端 文件 


在 这 一 过 程 中 ， 代 码 依然 会 提交 给 WORKSPACE SERVER， 进 行 解析 后 ， 再 由 CAs 服 务 器 执行 相关 代码 ， 完 成 数据 到 CAS 服 务 器 内 存 的 加 载 。 


加 载 文件 只 能 使 用 PROC CASUTIL， 代 码 如 下 : 


PROC CASUTIL <INCASLIB=caslib 名 称 OUTCASLIB= caslib 名 称 SESSREF= 会 话 名 称 >; 
LOAD CASDATA=" 文 件 名 称 " CASOUT=" 表 名 称 " <options>; 
QUIT; 


Hh, PROC CASUTIL 的 三 个 可 选 选项 进行 了 如 下 设置 。 
“ INCALSIB 和 OUTCASLIB 必 须 在 会 话 SESSREF 当中 ， 除 非 它们 是 全 局 CASLIB; 不 设置 SESSREF 时 则 使 用 系统 默认 会 话 ， 即 最 近 创 建 的 会 话 。 


' 文件 来 自 于 INCASLIB ， 要 将 其 加 载 到 OUTCASLIB 中 ， 成 为 OUTCASLIB 中 的 CAS 表 ; 不 设置 INCASLIB 或 OUTCASLIB 选 项 时 ， 系 统 将 使 用 会 话 的 active CASLIB 作 为 INCASLIB 或 OUTCASLIB。 


在 LOAD 语 句 中 ， 选 项 CASDATA 设 置 了 所 要 加 载 的 文件 名 称 ， 该 文件 属于 INCASLIB。 选 项 CASOUT 设 置 了 加 载 到 内 存 的 CAS 表 的 名 称 。 后 面 的 其 他 选项 “<options>” 


表 3.3 LOAD 语 句 中 的 CASDATA 的 可 选 选项 


选项 名 称 
INCASLIB=“CASLIB 名 称 ” 


* IMPROTOPTIONS= ( 

FILETYPE="AUTO" | "BASESAS" | 
"CSV" | "EXCEL" | "HDAT" | "XLS" 

< 选项 >) 


GROUPBY=( 变 
ORDERBY=( 25 


量 名 < 变量 名 …>) 按 一 个 或 多 个 变量 分 组 
HEY, < 变量 名 >) 按 一 个 或 多 个 变 


覆盖 RPOC CASUTIL 的 INCASLIB 选项 
OUTCASLIB=“CASLIB 名 称 ” m RPOC CASUTIL 的 OUTCASLIB 选项 

FILETYPE 设置 了 文件 类 型 ; 

AUTO 将 根据 文件 的 后 级 名 来 判断 文件 类 型 ， 

BASESAS 是 指 SAS 数据 集 ，HDAT 是 SASHDAT 格式 的 数据 ， 
用 于 XLSX 格式 的 文件 , XLS 就 是 指 XLS 格式 文件 。 不 同 的 文件 类 型 有 
不 同 的 选项 ， 有 具体 请 参考 表 3.2 


量 排序 ， 必 分 


页 要 和 GROUPBY 一 起 使 用 
LABEL=“ 字 符 串 ” 为 生成 的 CAS 表 添 加 标签 ， 最 长 256 个 字符 


PROMOTE 把 加 载 后 的 CAS 表 变 成 一 个 全 局 表 。 有 具体 请 参考 3.4.6 节 


REPLACE 蔡 换 同名 的 CAS 表 。 但 是 无 法 蔡 换 已 存在 的 同名 全 局 CAS K 
OPTIONS| DATASOURCEOPTOINS =| ”覆盖 INCASLIB 中 的 数据 源 选 项 。 
(数据 源 选 项 ) 具体 请 查看 第 2 章 中 对 各 类 型 CASLIB 的 介绍 


COPIES= 整数 将 生成 的 CAS 表 复 制 多 份 
VARS/VARLIST= 


设置 有 哪些 列 将 被 加 载 ， 若 不 使 用 该 选项 则 将 加 载 所 有 列 。 


((FORMATE= “字符 串 ” 
LABEL= “字符 串 ” 
NAME= “字符 串 ” 

) 

<, (下 一 列 言 息 描述 ): >) 


各 选项 含义 如 下 : 
FORMAT 格式 名 称 
LABEL 列 标签 
NAME 列 名 称 


WHERE=“ 表 达 式 < AND NOT|| ”只 有 满足 WHERE 条件 的 行 才 会 被 加 载 。 


OR| OR NOT 表达 式 … 个 算术 或 逻辑 表达 式 ， 多 个 表达 式 之 间 用 人 逻辑 运算 符 来 连接 


注意 ”加 了 * 的 选项 只 用 于 来 自 文件 系统 的 文件 。 
文件 的 数据 源 分 为 两 种 类 型 : 文件 系统 和 数据 库 。 关 于 CASLIB 所 支持 的 文件 系统 的 类 型 和 数据 库 的 类 型 请 参考 第 2 章 。 


下 面 的 示例 代码 将 会 加 载 一 些 文件 系统 中 的 文件 ， 这 些 文件 位 于 CAS 服 务 器 的 CONTROLLER 节 点 上 : 


信息 如 表 3.3 所 示 。 


EXCEL 


WHERE 后 可 以 设置 一 个 或 多 


cas mysess 1 cashost="ssscrdlax06" casport=5570; 
/* 建 立 基 于 文件 系统 的 CASLIB*/ 
caslib caslib 1 sessref=mysess 1 datasource=(srctype="path") path="/install/users/datadir/caslib"; 
/* 把 CASLIB_1 中 的 文件 加 载 为 CASLIB_1 中 的 CAS 表 */ 
proc casutil incaslib=caslib 1 “outcaslib=caslib | 1; 
load casdata="productsales.sas7bdat" 
casout="cas_productsales" 
importoptions=(filetype="BASESAS") ; 
load casdata="cars.sashdat" 
casout="cas_cars_hdat" 
importoptions=(filetype="hdat") 
vars=((name="make"), (name="model") ) 
where="cylinders=8"; 
load casdata="data.xlsx" 
casout="cas_data_excel" 
importoptions=(filetype="excel" getnames=true) ; 
load casdata="data.txt" casout="cas_data_csv" 
importoptions=(filetype="csv" delimiter="_" 
getnames=false LOCALE="en_ US" varchars=false 
vars=((name="ID" TYPE="double"), 
(name="material" TYPE="VARCHAR") , 
(name="part" TYPE="VARCHAR") , 
(name="product" TYPE="VARCHAR") , 
(name="price" TYPE="double") )); 
quit; 


代码 中 ， 在 加 载 文件 CARS.sashdat 时 ， 只 加 载 了 


中 的 两 个 列 : MAKE 和 MODEL， 并 且 按 WHERE 选项 中 的 设置 对 行进 行 了 过 滤 。 另 外 在 加 载 data.txt 时 ， 


设置 了 列 的 数据 类 型 。 


具体 的 运行 日 志 


如 


59 proc casutil incaslib=caslib 1 outcaslib=caslib ; 
NOTE: The UUID '678306ef-3c51-8a49-9aa9-2580e4904283' is connected using session MYSESS 1. 


60 load casdata="productsales.sas7bdat" 
61 casout="cas_productsales" 
62 importoptions=(filetype="BASESAS") ; 


NOTE: Cloud Analytic Services made the file productsales.sas7bdat available as table CAS_PRODUCTSALES in caslib CASLIB 1. 


NOTE: The Cloud Analytic Services server processed the request in 0.068134 seconds. 
63 ! load casdata="cars.sashdat" 


64 casout="cas_cars hdat" 

65 importoptions=(filetype="hdat") 
66 vars=((name="make"), (name="model") ) 
67 where="cylinders=8" 


NOTE: Cloud Analytic Services hots the file cars.sashdat available as table CAS CARS HDAT in caslib CASLIB 1. 


NOTE: The Cloud Analytic Services server processed the request in 0.033587 seconds. 
6 load casdata="data.xlsx" 

69 casout="cas_data_excel" 

70 importoptions=(filetype="excel" getnames=true) ; 


NOTE: Cloud Analytic Services made the file data.xlsx available as table CAS_DATA EXCEL in caslib CASLIB 1. 


NOTE: The Cloud Analytic Services server processed the request in 0.037891 seconds. 


gal load casdata="data.txt" casout="cas_data_csv" 


72 importoptions=(filetype="csv" delimiter="_" getnames= 
73 vars=((name="ID" TYPE="double") , 

74 (name="material" TYPE="VARCHAR") , 

75 (name="part" TYPE="VARCHAR") , 

76 (name="product" TYPE="VARCHAR"), 

77 (name="price" TYPE="double"))); 


NOTE: Cloud Analytic Services made the file data.txt available 
NOTE: The Cloud Analytic Services server processed the request 


78 quit; 

NOTE: PROCEDURE CASUTIL used (Total process time): 
real time 0.22 seconds 
cpu time 0.03 seconds 


false LOCALE="en_US" varchars=false 


as table CAS_DATA CSV in caslib CASLIB 1. 
in 0.035126 seconds. 


文件 可 以 来 自 于 数据 库 ， 下 面 的 示例 代码 将 使 用 一 个 TERADATA 数 据 库 作为 CASLIB 的 外 部 数据 源 : 


cas mysess 1 cashost="ssscrdlax06" casport=5570; 

caslib tdlib sessref=mysess_1 dataSource=(srcType="teradata", 
server="teraserver", 站 
database="teradatabase", 
schema="mySchema") ; 


proc casutil; 
load casdata="cars" incaslib="tdlib" casout="cars_CAS" 
vars=((name="make"), (name="model") ) 
where="cylinders=8"; 
quit; 


在 这 段 示例 代码 中 ， 会 话 mysess_1 中 CAsLIB tdlib 的 外 部 数据 源 是 一 个 TERADATA 数 据 库 ，PROC CASUTIL 值 加 载 了 数据 库 表 CARSs 中 的 MAKE 和 MODEL 这 两 列 ， 并 且 对 行进 行 了 过 滤 。 


3.3.3 ”CAS 端 文件 的 串 行 加 载 与 并 行 加 载 


对 于 来 自 于 特定 类 型 数据 库 的 CAS 端 文件 来 说 ， 加 载 CAS 端 文件 的 方式 有 两 种 : 串 行 加 载 和 并 行 加 载 。 


图 3.4 展 示 了 在 两 种 不 同 的 加 载 方式 下 ， 数 据 是 如 何 流动 的 。 需 要 说 明 的 是 ， 
据 库 节点 会 映射 成 不 同 的 角色 。 


CAS 


图 3.4 中 所 绘 的 数据 库 管理 节点 和 数据 库 数 据 节点 只 是 对 一 个 数据 库 集群 的 模拟 。 对 于 不 同类 型 的 数据 库 ， 图 3.4 中 的 这 些 数 


CAS CAS 


worker worker 


CONTROLLER 
| 数据 库 | 


| 管理 节点 | 


行 加 载 方式 下 ， 数 据 首先 都 要 传输 到 CAS 管 理 节点 ， 然 后 由 管理 节点 再 发 


pr 


使 用 并 行 加 载 。 


CAS 


CONTROLLER 
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] 数据 库 | 
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图 3.4 ”数据 的 串 行 加 载 


送 到 各 个 工作 节点 。 这 种 方式 存在 单 点 传输 速度 上 的 瓶颈 。 


图 3.5 展 示 了 并 行 加 载 方式 下 的 数据 流动 。 并 行 加 载 方式 实现 了 数据 库 节点 与 CAs 工 作 节 点 之 间 数 据 的 点 对 点 直接 传输 ， 传 输 的 效率 更 高 。 因 此 对 于 数据 量 级 比较 大 并 且 效率 要 求 较 高 的 应 用 场景 ， 建 议 


CAS 


worker 


| | 数据 库 数据 库 数据 库 
| 管理 节点 | | 数据 节点 | | 数据 节点 | | 数据 节点 


图 3.5 数据 的 并 行 加 载 


到 目前 为 止 ， 所 有 的 数据 源 类 型 中 ， 只 有 HADOOP 和 TERADATA 支 持 数据 的 并 行 加 载 ， 其 他 数据 库 只 支持 数据 的 号 


对 于 这 两 种 类 型 的 数据 源 ， 有 如 下 两 种 方式 用 于 设置 数据 的 加 载 方式 。 


1) 在 建立 CASLIB 时 ， 设 置 数据 源 选 项 DATATRANSFERMODE。 


以 HADOOP 数 据 源 为 例 : 


(THEY. 


caslib hvlib sessref=mysess datasource=(srctype='hadoop', 
dataTransferMode='parallel', 
server='HiveServer', 
username='userl" 
hadoopJarPath="<Hadoop jar path directory>", 
hadoopConfigDir="<Hadoop configuration directory>", schema="<Hive schema name>") ; 


2) 在 PROC CASUTIL 的 LOAD 语 句 中 ， 在 OPTIONS|DATASOURCEOPTOINS 中 设置 DATATRANSFERMODE。 


此 处 设置 的 DATATRANSFERMODE 将 覆盖 CASLIB 中 的 设置 。 仍 然 以 HADOOP 数 据 源 为 例 : 


/*hvlib 是 基于 Hadoop 的 CASLIB*/ 
proc casutil incaslib="hvlib" sessref=mysess; 
load casdata="cars" casout="cars_CAS" 
options= (dbmsWhere="cylinders=8", dataTransferMode="parallel") ; 


quit; 


OPTIONS 选 项 中 的 DBMSWHERE 过 滤 了 被 加 载 的 数据 。 


3.4 管理 CAs 数 据 


本 节 将 介绍 如 何 使 用 SAs 代 码 管理 CAs 数 据 。 这 里 的 CAs 数 据 包括 文件 和 CAs 表 。 


3.4.1 查看 CAS 数 据 的 属性 


使 用 PROC CASUTIL 中 的 CONTENTS 语 句 ， 可 以 查看 一 个 CAS 表 或 文件 的 属性 ， 比 如 列 名 、 各 列 的 类 型 ， 等 等 。 


PROC CASUTIL <INCASLIB=caslib 名 称 SESSREF= 会 话 名 称 >; 
CONTENTS CASDATA="CAS 表 或 " <INCASLIB="caslib 名 称 "> 
<IMPROTOPTIONS= (FILETYPI 件 类 型 " < 选项 >) > 
<DATASOURCEOPTIONS= (数据 源 选项 ) > 
<VRRS= ( ( 列 名 ) < ( 列 名 ) > )>; 

QUIT; 


这 段 代 码 就 是 要 查询 INCASLIB 中 CASDATA 的 属性 。CASDATA 既 可 以 指定 一 个 CAS 表 ， 也 可 以 指定 一 个 文件 ， 当 


CASDATA 被 指定 为 一 个 文件 时 ， 可 以 用 IMPORTOPTIONS 设 置 文件 的 相关 属性 ， 关 


于 IMPORTOPTIONS 中 的 具体 参数 请 参考 表 3.2。 如 果 一 个 CAS 表 和 一 个 文件 的 名 字 相 同 ， 那 么 CONTENTS 语 名 会 查询 CAS 表 的 属性 而 忽略 掉 文 件 ， 因 此 建议 用 户 尽量 避免 文件 名 与 CAS 表 名 相同 ， 比 如 可 
以 在 文件 名 中 使 用 格式 后 缀 ， 例 如 “.sashdat” “.csv”， 等 等 。DATASROUCEOPTIONS 可 以 用 来 覆盖 INCASLIB 所 设置 的 CAsLIB 的 数据 源 选 项 。VARS 选 项 可 以 筛选 想 要 查看 的 列 的 名 称 ， 对 于 列 比较 多 


的 表 ， 该 选项 可 以 提高 查询 效率 。 


INCALSIB 必 须 在 会 话 SESSREF 当 中 ， 除 非 它 是 全 局 CASLIB; 不 设置 SESSREF 时 使 用 系统 默认 会 话 ， 即 最 近 创 建 的 会 话 。INCASLIB 可 以 在 PROC CASUTIL 语 句 中 或 CONTENTS 语 句 中 进行 设置 。 当 在 
两 个 地 方 同时 设置 时 ，CONTENTS 中 的 选项 有 效 。 不 设置 INCASLIB 时 ， 系 统 将 使 用 会 话 的 active CASLIB 作 为 INCASLIB。 


下 面 这 段 代 码 中 ，CASLIB_1 是 一 个 PATH 类 型 的 文件 ， 它 所 映射 的 路 径 下 有 一 个 文件 CARS_PATH.SASHDAT， 它 所 对 应 的 内 存 中 有 一 个 CAS 表 CARS。 使 用 CONTENTS 语 句 可 以 查询 它们 的 属性 : 


proc casutil sessref=mysess_1 incaslib=caslib 1; 
contents casdata="cars"; 
contents casdata="cars_path.sashdat"; 

run; 


输出 结果 中 有 5 个 表 ， 如 图 3.6 所 示 。 


The CASUTIL Procedure 
Table Information for Caslib CASLIB 1 


Number | Number of | NLS Promoted | Repeated 
Table Name Created Last Modified View |Compressed 
of Rows] Columns | encoding Table =a 


Detail Information for cars in Caslib CASLIB 1. 


Number | Active Fixed | Variable | Blocks | Memory | Blocks Memory Blocks | Memory 
of Blocks | Blocks Data size | Data size | Mapped | Mapped =a EIA EN =a 
a ae se} oe 68480 | o | 2 | 68832 | 68832 | 


Column Information for CARS in Caslib CASLIB 1 


Cohan 
Mak B| o | 
Mode rear [ wo [| 
MSRP me 8 [8 [DOLLAR 
Invoice Jaouble| 8 | 8 | DOLLAR 

EngineSize Engine Size (L) [doube] 8 [| 12 | 
MPG City | MPG(City) |double] 8 | 12 | 

MPG Highway | MPG (Highway) |double| 8 | 12 | 

Weight Weight (LBS) [double] 8 | 12 | 
Wheelbase Wheelbase (IN) [doube] 8 | 12 | 
Length Length (IN) [doube] 8 | 12 | 


CAS File Information 


cars_path.sashdat NONE 71.6KB | 08Dec2016:03:46:26 


图 3.6 使 用 PROC CASUTIL 查 看 CAS 数 据 的 属性 


Toma [ffs fo | 
vo | e a ao 
me | | ss | 
EE | | 
mmm [er>s | os | 
C mse [fabs | 8 | DoLLan’ 
mo | [aoubte[ s [8 outa’ 
es | Enge size) [able] 8 | 2 | 
cymes | as 2 | —*d 
cl +) +d 
meo ciy | MPG Cin [owe] s | 2 | 
MPG Highway) MPG (Highvay)| double 8 [2 | —d 
C veien | went [aowe] s | | 
Wheelbase | Wheebbase 0N) [double 8 | 2 | sd 
[tenth | Lenehan) [dowels | aa | 


图 3.6 (#4) 


除了 PROC CASUTIL 之 外 ， 还 可 以 使 用 PROC CONTETNS 查 看 CAS 数 据 的 属性 。SAS V9 平台 上 的 PROC CONTENTS 依 然 可 以 在 Viya 平 台 上 使 用 。 但 是 PROC CONTETNS 只 能 用 来 查看 CAS 表 的 


性 ， 并 有 必须 使 用 CAS 逻 辑 库 。 示 例 代码 如 下 : 


属 


cas mysess cashost= 

/* 为 全 局 CASLIB 建 立 逻 辑 库 */ 
libname mycaslib cas sessref=myse 
/* 查 看 全 局 逻辑 库 中 的 表 的 属性 */ 

proc contents data=mycaslib.cars; 


quit; 


st="brdvm0920" casport=5570; 


ss caslib=caslib_ global; 


PROC CONTETNS 的 输出 结果 与 PROC CASUTIL 类 似 ， 但 是 格式 略 有 不 同 ， 如 图 3.7 所 示 。 


The CONTENTS Procedure 


Member Type 
Engine 
Created 

Last Modified 
Protection 
Data Set Type 
Label 

Data 
Encoding 


42 
OE 
gzst | oea 0 


.| 
3 
| SOLARIS X86 64, LINUX X86 64, | | | 

I 


utf-8 Unicode (UTF-8) 


图 3.7 PROC CONTENTS 查 看 CAS 数 据 的 属性 
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图 3.7 (4) 


3.4.2 ”保存 CAS 服 务 器 中 的 数据 


CAsS 服 务 器 中 的 数据 是 指 存在 于 CAS 服 务 器 内 存 中 的 数据 ， 也 就 是 CAsLIB 中 的 CAs 表 。 会 话 CASLIB 中 的 CASs 表 会 在 CAS 会 话 结束 时 被 销毁 。 全 局 CASLIB 虽 然 不 
CAS 服 务 ， 那 么 它们 当中 的 CAs 表 也 会 被 销毁 。 本 节 将 介绍 如 何 保存 CASLIB 中 的 CAs 表 ， 也 就 是 如 何 把 CAS 表 持久 化 到 硬盘 。 


保存 CAS 表 的 方法 有 如 下 两 种 。 


第 一 种 方法 是 使 用 DATA 步 读 取 CAS3 引 擎 逻辑 库 中 的 CAS 表 ， 并 把 它 保存 到 其 他 位 置 。 


下 面 的 代码 将 把 CAsLIB_1 中 的 表 CARS 保 存 为 SAs 罗 辑 库 下 的 一 个 SAs 数 据 集 : 


国光 Engine Size (L) 


TT 
es 
Yc cin) 
oie 


Weight (LBS) 
Wheelbase (IN) 


属于 任何 会 话 ， 但 是 如 果 停 止 或 重启 


/* 创 建 会 话 ,然后 为 该 会 话 的 active CRASLIB 创 建 Cs 引擎 逻辑 库 */ 
libname caslibry cas host="ssscrdlax06" port=5570 caslib=caslib 1; 
libname mylib base "/tmp/" 
/* 加 载 SAS 数 据 集 */ 
data caslibry.cars; 
set sashelp.cars; run; 
/* 保 存 CAS 表 */ 
data mylib.cars; 
caslibry.cars 
run; 


需要 强调 的 是 ， 这 种 方法 是 把 CARS 表 保存 到 WORKSPACE SERVER 上 的 路 径 /tmp 里 。 


第 二 种 方法 是 使 用 PROC CASUTIL， 代 码 如 下 : 


PROC CASUTIL <INCASLIB=caslib 名 称 OUTCASLIB= caslib 名 称 SESSREF= 会 话 名 称 >; 
SAVE CASDATA="CAS#" <INCASLIB="caslib 名 称 "> 
<CASOUT=" 文 件 名 "<OUTCASLIB="caslib 名 称 ">>< 其 他 选项 >; 
QUIT; 


这 段 代 码 是 把 INCASLIB 中 的 CAS 表 (选项 CASDATA 所 设置 的 ) 保存 为 INCASLIB 中 的 文件 (选项 CASOUT 所 设置 的 ) 。 


INCALSIB 和 OUTCASLIB 必 须 在 会 话 SESSREF 当 中 ， 除 非 它们 是 全 局 CASLIB; 若 不 设置 SESSREF， 则 使 用 系统 默认 会 话 ， 即 最 近 创 建 的 会 话 。 


INCASLIB 和 OUTCASLIB 可 以 在 PROCCASUTIL 语 句 中 或 SAVE 语 句 中 进行 设置 。 当 同时 在 两 个 地 方 设 置 时 ，SAVE 语 句 中 的 选项 有 效 。 不 设置 INCASLIB 或 OUTCASLIB 选 项 时 ， 系 统 将 使 用 会 话 的 active 
CASLIB 作 为 INCASLIB 或 OUTCASLIB。 


目前 只 可 以 将 CASs 表 保存 成 SASHDAT 文 件 或 者 CSV 文 件 。 这 两 种 文件 只 能 存放 到 文件 系统 当中 ， 因 此 要 求 CAsLIB 的 SRCTYPE 必 须 是 DNFS、HDF3 或 PATH。 文 件 默认 的 保存 格式 是 SASHDAT， 在 
CASOUT 的 文件 名 称 中 使 用 后 缀 “.CSV” 时 就 表示 要 把 CAs 表 保存 成 CAS 文 件 。 


注意 CAS 表 只 能 以 SASHDAT 或 CVS 的 格式 保存 到 DNFS、HDFS 或 PATH 类 型 的 CASLIB 中 。 


下 面 的 示例 代码 是 把 PATHCASLIB 中 的 CAS 表 CARS 保 存 为 文件 。 其 中 ORACLECASLIB 是 一 个 数据 源 为 ORACLE 的 CASLIB，PATHCASLIB 是 基于 文件 系统 的 CASLIB， 创 建 它们 的 代码 如 下 : 


caslib oraclecaslib datasource=(srctype="oracle" 
username="ABMUSER" password="Go4thsas" 
path="//xxxxxx.sas.com:1521/mydb") ; 

caslib pathcaslib sessref=mysess_1 datasource=(srctype="path") 
path="/install/users/sasdemo/"; 


向 PATHCASLIB 中 加 载 一 个 CAS 表 : 


libname caslibry cas host="ssscrdlax06" Port=5570 libref= pathcaslib; 
/* 加 载 SAS 数 据 集 */ 


data caslibry.cars; 
set sashelp.cars; 
run; 


保存 PATHCASLIB 中 的 CAS 表 的 代码 如 下 : 


proc casutil sessref=mysess_1; 
save casdata="cars" incaslib="pathcaslib" 
casout="cars_ path" outcaslib="pathcaslib"; 
save casdata="cars" incaslib="pathcaslib" 
casout="cars_oracle" outcaslib="oraclecaslib"; 


这 段 代 码 的 日 志 中 交代 了 的 生成 文件 的 名 称 和 格式 : 


57 proc casutil sessref=mysess_1; 
NOTE: The UUID '6ee54471-bf31-9440-a4a7-9e66a26d989b' is connected using session MYSESS 1. 
58 ! save casdata="cars" incaslib="pathcaslib" casout="cars_ path" outcaslib="pathcaslib"; 


NOTE: Cloud Analytic Services saved the file cars_path.sashdat in caslib PATHCASLIB. 
NOTE: The Cloud Analytic Services server processed the request in 0.033895 seconds. 
59 ! save casdata="cars" incaslib=" "pathcaslib" casout="cars oracle" outcaslib="oraclecaslib"; 
ERROR: You cannot load table 'cars_oracle.sashdat' into caslib 'ORACLECASLIB'. The library is of the wrong type. 
ERROR: The action stopped due to errors. 
NOTE: The Cloud Analytic Services server processed the request in 0.009142 seconds. 
60 run; 


本 节 主 要 介绍 如 何 将 INCASLIB 中 的 CAs 表 保存 成 OUTCASLIB 中 的 文件 ， 但 是 有 一 个 特殊 的 选项 IMPORTOPTIONS 可 以 实现 文件 在 不 同 CASLIB 间 的 “复制 ” (文件 格式 可 能 会 发 生变 化 ) ， 也 就 是 可 
以 把 INCASLIB 中 的 文件 转 存 成 OUTCASLIB 中 的 文件 ， 在 这 一 过 程 中 ，INCASLIB 中 的 文件 不 会 被 加 载 到 内 存 中 。 详 细 内 容 会 在 3.4.5 节 中 介绍 。 


使 用 PROC CASUTIL 保 存 CAs 服 务 器 中 的 数据 时 ，SAVE 语 句 可 以 使 用 选项 来 完成 更 多 特定 的 功能 ， 表 3.4 列 出 了 这 些 选 项 。 


表 3.4 SAVE 语 和 句 中 的 “< 其 他 选项 >” 


EAER e o 
COMPRESS 压缩 生成 的 文件 SASHDAT CSV 
COPIES|REPLICATION= 整数 将 文件 复制 多 份 SASHDAT 


IMPROTOPTIONS= ( 该 选项 用 于 把 INCASLIB 中 
FILETYPE="AUTO" | "BASESAS" | | 的 文件 保存 为 OUTCASLIB 中 
"CSV"|"EXCEL"|"HDAT"|"XLS" | 的 文件 。 关 于 文件 在 CASLIB 
< 选项 >) 间 的 复制 ， 请 参考 3.4.5 节 
eal an aac 


(变量 名 < 变量 名 … 


DNFS, HDFS 和 PATH | SASHDAT, CSV 


对 文件 进行 分 区 DNFS、HDFS 和 PATH | SASHDAT 


对 分 区 中 的 文件 进行 排序 
= 变量 变量 名 …. 
ORDERBY=( 变量 名 < 变量 名 只 能 与 GROUPBY 一 起 使 用 


公明 
REPLACE 替换 已 存在 的 同名 文件 DNFS、HDFS 和 PATH | SASHDAT, CSV 


WHERE=“ 表 达 式 AND 2 
只 保存 满足 WHERE 语句 的 行 | DNFS, HDFS 和 PATH | SASHDAT, CSV 
NOTIOR| OR NOT 表达 式 … Wa 


3.4.3 ”卸载 CAs 服 务 器 中 的 数据 


DNFS HDFS 和 PATH | SASHDAT 


卸载 CAs 服 务 器 中 的 数据 是 指 把 CAs 内 存 中 的 CAs 表 从 内 存 中 移 除 。 可 以 使 用 PROC CASUTIL 的 DROPTABLE 语 句 来 完成 这 一 操作 : 


PROC CASUTIL <INCASLIB=caslib 名 称 SESSREF= 会 话 名 称 >; 
DROPTABLE CASDATA="CAS 表 " <INCASLIB="caslib 名 称 "> <QUIET>; 
QUIT; 


以 上 代码 就 是 用 于 镍 载 INCASLIB 中 的 CASDATA 的 一 般 形 式 。 


INCALSIB 必 须 在 会 话 SESSREF 当 中 ， 除 非 它 是 全 局 CASLIB; 若 不 指定 SESSREF 则 使 用 系统 默认 的 会 话 ， 即 最 近 创建 的 会 话 。INCASLIB 可 以 在 PROCCASUTIL 语 句 中 或 DROPTABLE 语 句 中 进行 设置 。 
当 在 两 个 地 方 同 时 设置 时 ，DROPTABLE 中 的 选项 有 效 。 不 设置 INCASLIB 时 ， 系 统 将 使 用 会 话 的 active CASLIB 作 为 INCASLIB。 


DROPTABLE 语 句 可 能 会 执行 失败 ， 例 如 当 要 卸载 的 CAS 表 不 存在 时 。 在 DROPTABLE 语 句 中 使 用 QUIET 可 以 阻止 将 错误 信息 打印 到 日 志 


除了 PROC CASUTIL 之 外 ， 还 可 以 使 用 PROC DELETE 来 删除 CAS 表 。PROC DELETE 本 来 是 SAS V9 平 台 上 的 过 程 ， 但 在 Viya 平 台 上 依然 可 以 使 用 。 但 PROC DELETE 必 须要 使 用 CAS 逻 辑 库 才 可 以 访问 
CAS 表 。 示 例 代 码 如 下 : 


cas mysess cashost="brdvm0920" casport=5570; 
/* 为 全 局 CASLIB 建 立 逻 辑 库 */ 
libname mycaslib cas sessref=mysess caslib=caslib_global; 
/* 删 除 全 局 逻辑 库 中 的 表 */ 
proc delete data=mycaslib.cars; 
quit; 


这 段 代 码 的 日 志 如 下 : 


NOTE: Cloud Analytic Services dropped table CARS from caslib CASLIB 1. 
NOTE: Deleting MYCASLIB.CARS (memtype=DATA) . T 
NOTE: PROCEDURE DELETE used (Total process time): 

real time 0.00 seconds 

cpu time 0.00 seconds 


3.4.4 删除 文件 


使 用 PROC CASUTIL 中 的 DELETESOURCE 语 句 ， 可 以 在 CASLIB 中 删除 DNFS、HDFS 和 PATH 这 三 种 类 型 的 文件 。 下 面 是 实现 该 功能 代码 的 一 般 形式 : 


PROC CASUTIL <INCASLIB=caslib 名 称 SESSREF= 会 话 名 称 >; 
DELETESOURCE CASDATA=" 文 件 名 称 " <INCASLIB="caslib 名 称 "> <QUIET>; 
QUIT; 


INCALSIB 必 须 在 会 话 SESSREF 当 中 ， 除 非 它 是 全 局 CASLIB; 若 不 设置 SESSREF 则 使 用 系统 默认 的 会 话 ， 即 最 近 创 建 的 会 话 。CASDATA 所 设置 的 文件 属于 INCASLIB 所 设置 的 CASLIB。 不 设置 
INCASLIB 时 ， 系 统 将 使 用 会 话 的 active CASLIB 作 为 INCASLIB。 使 用 QUIET 选 项 可 以 阻止 将 错误 信息 打印 到 日 志 


为 了 强调 PROC CASUTIL 只 可 以 在 CASLIB 中 删除 DNFS、HDFS 和 PATH 这 三 种 类 型 的 文件 ， 这 里 给 出 了 一 个 反面 的 例子 ， 下 面 的 代码 尝试 删除 一 个 ORACLE 数据 库 中 的 表 : 


caslib oraclecaslib datasource=(srctype="oracle" 
sername="ABMUSER" password="Go4thsas" 
path="//xxxxxx.sas.com:1521/mydb") ; 

proc casutil sessref=mysess_1 incaslib=oraclecaslib ; 
DELETESOURCE CASDATA="APEX_ACTIVITY_LOG"; 

run; 


不 论 是 哪 种 类 型 的 CASLIB， 其 语法 都 是 一 样 的 。 这 段 代码 会 运行 出 错 ， 因 为 它 无 法 删除 一 个 数据 库 中 的 文件 : 


ERROR: Cloud Analytic Services cannot remove source data from caslib ORACLECASLIB. 
ERROR: The action stopped due to errors. 


3.4.5 复制 文件 


3.4.2 节 中 介绍 了 如 何 使 用 SAVE 语 句 将 CAS 表 保存 为 文件 ， 其 实 同样 的 代码 也 可 以 用 于 把 一 个 CASLIB 中 文件 保存 到 另 一 个 CASLIB 中 。 


PROC CASUTIL <INCASLIB=caslib 名 称 OUTCASLIB= caslib 名 称 SESSREF= 会 话 名 称 >; 
SAVE CASDATA=" 文 件 名 称 "”<INCASLIB="caslib 名 称 "> <CASOUT=" 文 件 名 " 
<OUTCASLIB="caslib 名 称 ">> 
<IMPROTOPTIONS= (FILETYPE=" 文 件 类 型 < 选项 >) > < 其 他 选项 >; 
QUIT; 


这 段 代 码 用 于 把 INCASLIB 中 的 CASDATA 保 存 为 OUTCASLIB 中 的 CASOUT。 其 中 各 个 选项 的 含义 及 使 用 场景 请 参考 3.4.2 节 中 的 介绍 。 如 果 INCASLIB 中 的 某 个 CAS 表 与 它 的 一 个 文件 同名 ， 那 么 可 以 使 
IMPORTOPTIONS 选 项 来 指明 CASDATA 是 一 个 CAS 表 还 是 文件 。 在 使 用 MPORTOPTIONS 选 项 时 ，CASDATA 将 被 当 作文 件 处 理 ; 否则 ，CASDATA 会 优先 作为 CAS 表 处 理 。 


示例 代码 : 


cas mysess_1 cashost="ssscrdlax06" casport=5570; 

caslib pathcaslib sessref=mysess_1 datasource=(srctype="path") 
path="/install/users/sasdemo/"; 

caslib pathcaslib 1 sessref=mysess_1 datasource=(srctype="path") 
path="/tmp/"; 

proc casutil sessref=mysess_1; 
save casdata="cars path.sashdat" incaslib="pathcaslib" 

casout="cars_ path" outcaslib="pathcaslib 1 "; 
run; 


NOTE: Cloud Analytic Services saved the file cars_path.sashdat in caslib PATHCASLIB 1. 
NOTE: The Cloud Analytic Services server processed the request in 0.106287 seconds. 


结合 3.4.2 节 中 的 内 容 可 以 看 出 ， 在 PROC CASUTIL 的 SAVE 语 句 中 ，CASDATA 中 既 可 以 指定 一 个 CAS 表 又 可 以 指定 一 个 文件 。 不 论 是 CAS 表 还 是 文件 ， 它 们 最 终 都 将 保存 为 OUTCASLIB 中 的 文件 。 


3.4.6 全 局 化 CAS 表 


只 要 通过 CAS MONITOR 为 相应 的 用 户 分 配 适 当 的 权限 ， 其 他 拥有 相应 权限 的 用 户 就 可 以 共享 全 局 CASLIB 了 。 全 局 CASLIB 中 的 CAS 表 未 必 一 定 是 全 局 的 ， 也 就 是 未 必 可 以 被 其 他 用 户 共享 。 默 认 情况 


下 ， 加 载 到 全 局 CASLIB 中 的 CAS 表 都 是 私有 CAS 表 ， 只 有 CAS 表 的 加 载 者 才 可 以 读 写 该 表 。 


注意 ”必须 先 通过 CAS MONITOR 对 相关 用 户 进行 授权 ， 比 如 授予 用 户 相应 CASLIB 的 读 、 加 载 表 、 


第 1 章 。 


详细 介绍 ， 请 参 


将 CAS 表 全 局 化 的 方式 有 如 下 两 种 。 


+ 用 PROC CASUTIL 加 载 数据 时 ， 使 用 PROMOTE 选 项 。 具 体 请 参考 3.3 节 。 


- 使 用 PROC CASUTIL 中 的 PROMOTE 语 和 句 ， 具 体 代码 如 下 : 


更 新 表 及 印 载 表 等 权限 ， 否 则 用 户 无 法 对 全 局 CASLIB 进 行 数据 加 载 、 表 修改 等 操作 。 关 于 授权 部 分 的 


PROC CASUTIL <INCASLIB=caslib 名 称 OUTCASLIB= caslib 名 称 SESSREF= 会 话 名 称 >; 
PROMOTE CASDATA="CAS 表 名 称 " <INCASLIB="caslib 名 称 > 
<CASOUT="CAS 表 名 称 " > <OUTCASLIB=" 全 局 caslib 名 称 "> <DROP | KEEP>; 

QUIT; 


KEEP 选 项 ) 或 剪 切 (使 有 


这 段 代 码 就 是 把 INCASLIB 中 的 CASDATA 复 制 (使 


CASOUT 选 项 时 ， 全 局 CAS 表 将 沿用 CASDATA 的 名 称 。 


OUTCASLIB。 当 不 使 


下 面 通过 实例 代码 来 查看 全 局 CAS 表 与 普通 CAS 表 的 区 别 。 


SASDEMO 用 户 登录 SAS STUIDO, 提交 如 下 代码 : 


首先 使 


DROP 选 项 ， 默 认 值 ) 为 OUTCASLIB 中 的 CASOUT 表 。OUTCASLIB 必 须 是 
可 以 在 PROCCASUTIL 语 句 中 或 PROMOTE 语 句 中 设置 。 当 在 两 个 地 方 同 时 设置 时 ，PROMOTE 中 的 选项 有 效 。 不 设置 INCASLIB 或 OUTCASLIB 选 项 时 ， 系 统 将 使 


一 个 全 局 CASLIB。INCASLIB 和 OUTCASLIB 
会 话 的 active CASLIB 作 为 INCASLIB 或 


cas mysess 1 cashost="ssscrdlax06" casport=5570; 

caslib pathcaslib sessref=mysess 1 datasource=(srctype="path") 
path="/install/users/sasdemo/" global; 

caslib pathcaslib 1 sessref=mysess 1 datasource=(srctype="path") path="/tmp/"; 
libname caslibry cas host="ssscrdlax06" port=5570 caslib="pathcaslib"; 
libname caslibry 1 cas host="ssscrdlax06" port=5570 caslib="pathcaslib _ 


Les 


data caslibry.cars_1; 
set sashelp.cars; 

run; 

data caslibry 1.cars; 
set sashelp.cars; 

run; 


proc casutil; 
promote casdata="cars" incaslib="pathcaslib 1" 
outcaslib="pathcaslib"; 
quit; 


这 段 代 码 首先 建立 了 一 个 全 局 CASLIB 和 一 个 会 话 CASLIB， 然 后 通过 CAS 引 警 逻 辑 库 向 各 自 的 CASLIB 中 加 载 数据 ， 得 


PATHCASLIB_1 中 的 表 全 局 化 为 PATHCASLIB 中 的 全 局 表 。 


DATA 步 实现 相同 的 全 局 化 操作 : 


除了 PROC CASUTIL, 还 可 以 使 


PROMOTE 语 句 把 会 话 CASLIB 


到 了 两 个 会 话 CAS 表 CARS 和 CARS_1。 之 后 使 


data caslibry.cars (promote=yes) ; 
set caslibry 1.cars; 
run; 


使 用 PROC CASUTIL 中 的 LIST 语 句 可 以 查看 PATHCASLIB 中 的 表 : 


proc casutil; 
list tables incaslib="pathcaslib"; 
quit; 


结果 如 图 3.8 所 示 。 
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15 | utf-8 


Table Information for Caslib PATHCASLIB 


Number umber | NLS Promoted Repeated 
of Rows | of eas encoding | Created Last Modified Table Table Compressed 


13Dec2016:08:54:27 
13Dec2016:08:42:38 


| 13Dec201 6:08:54: 27 | 
| 13Dec201 6:08:42:38 | 


图 3.8 PROC CASUTIL 查 看 CASLIB 中 的 表 


其 中 列 PROMOTED TABLE 表 示 是 否 为 全 局 CAS 表 。 


然后 使 


CAS MONITOR 修 改 全 局 CASLIB PATHCASLIB 的 权限 设置 ， 使 其 他 用 户 拥有 访问 和 加 载 数据 的 权利 。 之 后 打开 一 个 新 的 浏览 器 ， 使 用 CFGSAs1 


户 登 录 SAS STUIO， 提 交 如 下 代码 : 


libname caslibry cas host="ssscrdlax06" port=5570 caslib="pathcaslib"; 
data caslibry.cars_2; 

set sashelp.cars; 
run; 


proc casutil; 
list tables incaslib="pathcaslib"; 


quit; 


这 段 代码 首先 会 往 全 局 CASLIB PATHCASLIB 中 加 载 了 CAS 表 CARS_2， 然 后 使 用 PROC CASUTIL 的 LIST 语 句 查看 该 全 局 CASLIB 中 的 表 ， 输 出 结果 如 图 3.9 所 示 。 


上 


The CASUTIL Procedure 


Table Information for Caslib PATHCASLIB 


| CARS 428 | 


Number Number | NLS Promoted | Repeated 
| Table Name | of Rows | of Columns encoding Created Last Modified | View Compressed 
+ 
CARS_2 428 13Dec2016:09:19:02 | 13Dec2016:09:19:02 


| 13Dec2016:08:42:38 | 13Dec2016:08:42:38 | 


可 以 看 出 ，CFGSAS1 用 户 可 以 看 见 全 局 表 CARS， 但 看 不 到 SASDEMO 用 户 加 载 的 CAS 表 CARS_1。 这 就 是 全 


3.5 本章 小 结 


本 章 向 读者 详细 介绍 了 如 何 使 用 SAS 代 码 进行 数据 的 加 载 和 管理 。 


图 3.9 PROC CASUTIL 查 看 CASLIB 中 的 表 


{ESAS Viya 中 ，SAS 客 户 端 会 话 和 CAS 会 话 对 数据 处 理 有 着 不 同 的 方法 和 机 制 。SAS 客 户 端 会 话 中 的 数据 处 理 主要 通过 DATA 步 来 实现 ， 这 一 点 与 在 SAS 9 环境 下 的 实现 相同 。CAS 会 话 中 的 数 


体 包括 如 何 把 外 部 的 数据 加 载 到 CAS 服 务 器 中 ， 如 何 组 织 和 管理 内 存 中 和 内 存 外 的 数 所 
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局 CAS 表 与 会 话 CAS 表 的 主要 区 别 。 


居 ， 以 及 如 何 管理 CAS 服 务 器 中 的 数据 


然 主 要 是 通过 DATA 步 实现 ， 当 然 也 可 以 通过 直接 调用 ACT 


ON 来 实现 。 在 CAS 中 使 F 


首先 阅读 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 


本 章 将 着 重 介 绍 DATA 步 在 SAS Viya 的 CAS 会 话 中 与 在 SAS 9 环境 中 的 不 同 之 处 。 首 先 从 DATA 步 在 SAS Viya 环 境 中 的 默认 会 话 和 在 不 同类 型 会 话 中 执行 的 线程 模式 讲 起 ， 介 绍 线程 模式 对 运行 结果 的 影 
居 类 型 不 同 而 带 来 的 类 型 转换 。 然 后 介绍 在 CAS 会 话 中 如 何 对 CAS 表 进行 分 区 


响 ， 以 及 如 何 通 过 改变 默认 模式 来 控制 执行 会 话 和 线程 模式 。 接 着 介绍 数 


居 类 型 ， 以 及 


和 排序 。CAS 中 进行 数据 处 理 时 ， 在 很 多 情况 下 ， 会 使 


4.1 DATA 步 在 SAS Viya 中 的 执行 


在 SAS Viya 环 境 中 ， 根 据 数据 所 在 的 位 置 、DATA 步 将 要 执行 的 功 
中 执行 时 可 以 是 单线 程 也 可 以 是 多 线程 ， 因 此 有 些 对 数据 的 行 顺序 有 依赖 的 操作 会 产生 不 同 的 运行 结果 ， 所 以 开发 人 员 理解 DATA 步 的 执行 及 其 


4.1.1 ”DATA 步 的 执行 会 话 


否 被 CAS 支 持 等 因 


SAS Viya 中 ，DATA 步 的 运行 日 志 会 给 出 DATA 步 是 否 在 CAS 会 话 中 执行 的 信息 。 


在 SAS Studio 中 提交 如 下 代码 : 


cas mysess; 
libname mycas cas; 


proc casutil; 
load data=sashelp.cars casout="cars"; 
quit; 


data mycas.cars2; 
set mycas.cars; 
run; 


data work.cars; 
set mycas.cars; 
run; 


从 两 个 DATA 步 的 日 志 (图 4.1) 中 可 以 得 知 ， 所 提交 代码 中 : 第 一 个 DATA 步 生成 消息 “NOTE: Running DATA step in Cloud Analytic Services.”， 表 示 该 DATA 步 在 CAS 中 执行 ; 第 二 个 DATA 步 
运行 的 日 志 没有 对 应 的 消息 ， 表 示 该 DATA 步 在 SAS 客 户 端 会 话 中 执行 。 


法 比较 陌生 ， 那 么 建议 


DATA 步 处 理 数据 的 方法 与 在 SAS 9 环境 中 的 基本 相同 。 如 果 读 者 对 DATA 步 在 SAS 9 环境 下 的 


因 SAS 客 户 端 会 话 和 CAS 会 话 所 处 理 的 数 
变量 格式 化 之 后 的 值 而 不 是 原始 值 ， 本 章 的 最 后 也 会 对 此 进行 讲解 。 


素 ， 自 动 决定 DATA 步 是 在 SAS 客 户 端 会 话 中 还 是 在 CAS 会 话 中 执行 。 因 为 DATA 步 在 SAS 客 户 端 会 话 或 CAS 会 话 


data mycas.cars2; 
set mycas.cars; 
run; 


Running DATA step in Cloud Analytic Services. 

The DATA step will run in multiple threads. 

CLM CAS 4H CASUSER(sasdemo) 的 表 “CARS” 中 读 取 428 个 观测 。 

CAS 逻辑 库 CASUSER(sasdemo) 中 的 表 “cars2” 有 428 个 观测 和 15 个 变量 。 
“DATA 语句 ”所 用 时 间 《 总 处 理 时 间 ) : 

实际 时 间 0.03 种 

CPU 时 间 0.00 秒 


data work.cars; 
set mycas.cars; 
run; 


从 数据 集 MYCAS.CARS. 读 取 了 428 个 观测 
数据 集 WORK .CARS 有 428 个 观测 和 15 个 变量 。 
“DATA 语句 ”所 用 时 间 《 总 处 理 时 间 ) : 

实际 时 间 0.02 秒 

CPU 时 间 0.02 F) 


图 4.1 DATA 步 的 运行 日 志 信息 
1 .默认 执行 会 话 
默认 情况 下 ，DATA 步 必须 满足 如 下 条 件 才 会 在 CAS 会 话 中 执行 ， 否 则 该 DATA 步 就 会 在 SAS 客 户 端 会 话 中 执行 。 


“ DATA 步 所 操作 的 数据 〔 包 括 所 有 输入 数据 和 输出 数据 ) 都 是 通过 CAS 引 擎 逻辑 库 引 用 的 CAS 内 存 表 。 当 DATA 步 中 要 使 用 到 多 个 表 时 ， 只 要 存在 一 个 不 是 CAS 内 存 中 的 表 ，DATA 步 就 会 在 SAS 客 户 端 
会 话 中 运行 。 如 图 4.1 中 的 第 二 个 DATA 步 。 


< DATA 步 将 要 执行 的 所 有 功能 都 必须 是 CAS 支 持 的 相关 功能 。 这 里 提 到 的 DATA 步 功能 包括 DATA 步 中 的 语句 和 选项 等 。 例 如 INEFILE 语 句 、INPUT 语 名 和 数据 集 选 项 WHERE= 在 CAS 中 均 不 支持 。 当 将 
要 执行 的 DATA 步 中 的 任 一 功能 在 CAS 中 不 被 支持 时 ， 该 DATA 步 就 会 自动 在 SAS 客 户 端 会 话 中 执行 。CAS 是 否 支 持 某 项 功能 可 查看 对 应 的 帮助 文档 来 获取 ， 这 里 不 再 细 述 。 


将 系统 选项 MSGLEVEL 设 置 为 |， 就 可 以 在 日 志 中 打印 DATA 步 的 更 多 执行 信息 。 设 置 MSMLEVEL= 系 统 选项 的 示例 如 下 : 


options msglevel=i; 


大 家 可 在 代码 的 最 开始 处 加 上 该 语句 ， 提 交 所 有 代码 执行 ， 并 查看 日 志 。 可 以 看 到 ， 在 第 二 个 DATA 步 运行 的 日 志 中 增加 了 信息 “INFO: Could not run DATA Step in Cloud Analytic Services.” , 
如 图 4.2 所 示 。 


71 data work.cars; 
72 set mycas.cars; 
73 run; 


NOTE: To run DATA step in Cloud Analytic Services the CAS libname engine must be used with all data sets. 
INFO: Could not run DATA Step in Cloud Analytic Services. 


NOTE: 从 数据 集 MYCAS.CARS. 读 取 了 428 个 观测 
NOTE: 数据 集 WORK .CARS 有 428 个 观测 和 15 个 变量 。 
NOTE: “DATA 语句 ”所 用 时 间 〈 总 处 理 时 间 ) : 

实际 时 间 0.01 秒 

CPU 时 间 0.00 秒 


图 4.2 系统 选项 MSGLEVEL=I 的 日 志 
2.DSACCEL= 系 统 选项 控制 DATA 步 不 在 CAS 中 执行 


默认 情况 下 ， 当 满足 前 面 给 出 的 DATA 步 在 CAS 中 运行 的 条 件 时 ，DATA 步 会 在 CAS 会 话 中 运行 。 然 而 ，SAS Viya 还 提供 了 系统 选项 DSACCEL= 来 强制 DATA 步 不 在 CAS 会 话 中 执行 。 设 置 该 选项 的 基本 
语法 如 下 : 


OPTIONS DSACCEL=ANY |NONE; 


其 默认 值 为 ANY， 表 示 当 指定 的 DATA 步 满足 在 CAS 中 执行 的 条 件 时 ， 其 将 在 CAS 会 话 中 执行 。 当 该 值 设置 为 NONE 时 ， 表 示 禁 止 在 CAS 会 话 中 执行 DATA 步 ， 无 论 DATA 步 是 否 满足 在 CAS 中 执行 的 条 


件 ， 所 提交 的 DATA 步 都 会 自动 在 SAS 客 户 端 会 话 中 执行 。 使 用 该 选项 的 示例 将 与 下 面 SESSREF= 选 项 的 示例 一 同 描述 。 


3.SESSREF= 选 项 指定 DATA 步 在 CAS 会 话 中 执行 


系统 选项 DSACCEL= 设 置 为 NONE 时 将 禁止 该 SAS 会 话 中 提交 的 任何 DATA 步 在 CAS 中 运行 ， 但 对 于 某 个 DATA 步 ， 可 通过 在 DATA 语 句 中 设置 SESSREF= 使 得 满足 在 CAS 中 运行 条 件 的 DATA 步 在 指定 的 
CAS 会 话 中 运行 。 使 用 SESSREF= 的 DATA 步 的 基本 语法 如 下 : 


DATA 数据 表 / SESSREF=CAS 会 话 名 ; 
DATA 步 语句 ; 
RUN; 


DATA 语 句 选项 SESSREF= 对 该 DATA 步 执行 的 影响 高 于 系统 选项 DSACCEL=。 也 就 是 说 ， 即 使 DSACCEL 的 值 为 NONE， 只 要 指定 了 SESSREF= 选 项 ， 该 DATA 步 就 会 提交 到 CAS 会 话 中 执行 。 


参考 如 下 代码 : 


options dsaccel=none; 


cas mysess; 
libname mycas cas; 


proc casutil; 
load data=sashelp.cars casout="cars"; 
quit; 


data mycas.cars2; 
set mycas.cars; 
run; 


data mycas.cars3 / sessref=mysess; 
set mycas.cars; 
run; 


data work.cars / sessref=mysess; 
set mycas.cars; 
run; 


上 述 代码 中 三 个 DATA 步 运行 的 日 志 如 图 4.3 所 示 。 上 述 代 码 及 其 运行 日 志 的 说 明 具 体 如 下 。 


+ 代码 开始 时 将 系统 选项 DSACCEL= 设 置 为 NONE， 表 示人 禁止 该 会 话 中 所 有 的 DATA 步 在 CAS 中 执行 。 
“ 第 1 个 DATA 步 在 SAS 客 户 端 会 话 中 执行 。 虽 然 满足 在 CAS 中 执行 的 条 件 ， 但 是 系统 选项 DSACCEL= 设 置 为 NONE ， 因 此 禁止 DATA 步 在 CAS 中 运行 。 
- 第 2 个 DATA 步 在 CAS 中 执行 。 第 2 个 DATA 步 较 第 1 个 DATA 步 多 了 DATA 语 和 句 选项 SESSREF= ， 该 选项 指定 了 DATA 步 要 在 CAS 会 话 mysess 中 执行 。 


“ 第 3 个 DATA 步 执行 出 错 并 停止 执行 。 第 3 个 DATA 步 不 满足 在 CAS 会 话 中 执行 的 条 件 〔 其 输出 数据 表 不 为 CAS 表 ) ， 但 DATA 语 句 又 通过 选项 SESSREF= 指 定 该 DATA 步 要 在 CAS 会 话 中 运行 ， 所 以 出 


66 data mycas.cars2; 
67 set mycas.cars; 
68 run; 


NOTE: 从 数据 集 MYCAS.CARS. 读 职 了 428 个 观测 
NOTE: 数据 集 MYCAS.CARS2 有 428 个 观测 和 15 个 变量 。 
NOTE: “DATA 语句 ”所 用 时 间 【 总 处 理 时 间 ) : 

实际 时 间 0.02 种 

CPU 时 间 0.01 $) 


data mycas.cars2 / sessref=mysess; 
set mycas.cars; 
run; 


Running DATA step in Cloud Analytic Services. 


已 从 CAS 逻辑 库 CASUSER(sasdemo) 的 表 “CARS” 中 读 取 428 个 观测 。 

CAS 逻辑 库 CASUSER(sasdemo) 中 的 表 “cars22 有 428 个 观测 和 15 个 变量 。 
“DATA 语句 ”所 用 时 间 【 总 处 理 时 间 ) : 

实际 时 间 8.81 $ 

CPU 时 间 0.00 种 


73 

74 data work.cars / sessref=mysess; 
75 set mycas.cars; 

76 run; 


ERROR: To run DATA step in Cloud Analytic Services the CAS libname engine must be 
NOTE: 由 于 出 错 ，sAs 系统 停止 处 理 该 步 。 
NOTE: “DATA 语句 ”所 用 时 间 (总 处 理 时 间 ): 

实际 时 间 0.01 种 

CPU 时 间 6.00 $) 


4.3 系统 选项 DSACCEL=NONE&DATA 步 选项 SESSREF= 


4.1.2 DATA 步 在 CAS 中 的 单线 程 和 多 线程 处 理 


DATA 步 在 SAS 客 户 端 会 话 中 为 单线 程 执行 。 当 DATA 步 在 CAS 服 务 器 上 运行 时 ， 可 能 是 单线 程 也 可 能 是 多 线程 。 默 认 情 况 下 ， 在 单机 部 署 的 CAS 服 务 器 中 ，DATA 步 会 在 该 单 台 机 器 中 的 多 个 CPU 上 以 


多 线程 运行 ;在 多 机 部 署 的 CAS 服 务 器 中 ，DATA 步 会 在 多 台 机 器 中 的 每 台 机 器 的 多 个 CPU 上 以 多 线程 运行 。 也 可 以 在 DATA 步 中 通过 设置 选项 SESSREF= 强 制 该 DATA 步 在 CAS 中 以 单线 程 执行 。 


DATA 步 以 多 线程 运行 时 ， 每 个 线程 处 理 一 部 分 数据 。 相 同 的 DATA 步 代码 在 以 单线 程 和 多 线程 方式 运行 时 ， 所 产生 的 结果 可 能 会 有 所 不 同 。 


1. 多 线程 处 理 行 间 依 赖 的 DATA 步 
我 们 知道 ，DATA 步 对 数据 的 处 理 是 以 数据 表 中 的 行 SAS 数据 集中 称 为 观测 ， 关 系数 据 库 中 称 为 行为 单位 逐 行进 行 的 。 在 现实 的 数据 处 理 中 ， 需 要 对 多 行 或 一 组 数据 联合 进行 处 理 ，DATA 步 也 提供 


了 相应 的 语句 和 函数 来 实现 这 样 的 处 理 功能 。 因而 往往 需要 提前 对 数据 按照 某 种 规则 提前 进行 排序 ， 其 结果 也 与 数据 中 行 的 顺序 有 关 。 我 们 称 


实现 这 些 功 能 的 语句 和 函数 ， 对 数据 中 行 的 顺序 是 有 要 求 的 ， 


这 样 的 语句 和 函数 为 行 闻 依 赖 的 DATA 步 语句 和 函数 。 


当 以 多 线程 处 理 时 ， 如 果 将 要 执行 的 DATA 步 中 存在 行 间 依 赖 的 语句 和 函数 ， 那 么 其 执行 结果 可 能 与 预期 的 会 有 所 差异 。 例 如 RETAIN 语 句 (常用 于 将 值 保留 到 下 一 行 的 执行 ) ， 在 多 线程 DATA 步 中 ， 
表 的 所 有 行 并 不 会 在 同一 线程 中 一 起 处 理 ， 行 的 顺序 也 无 法 得 到 保证 。RETAIN 语 句 所 产生 的 结果 也 无 从 预期 。DATA 步 中 行 间 依 赖 的 语句 和 函数 有 : RETAIN 语 句 、DIF 和 LAG 函 数 、.FIRST 和 .LAST 变 量 ， 
以 及 临时 数组 。 


这 些 语句 或 函数 时 ， 在 DATA 步 多 线程 执行 生成 结果 的 基础 上 ， 还 需要 一 个 单线 程 执 行 的 DATA 步 做 进一步 处 理 。 


在 DATA 步 中 使 


Me Si 
Sr 


参考 如 下 代码 : 


cas mysess; 
libname mycas cas; 
libname mylocal "/opt/sas/data"; 


data mycas.hmeq; 
set mylocal.hmeq; 
run; 


data mycas.loan total; 
set mycas.hmeq end=last; 
retain total 0; 
total=total+loan; 
threadid=_threadid_; 
keep total threadid; 
if last then output; 
run; 


proc print data=mycas.loan_total; 
run; 


代码 将 计算 表 HMEQ 中 所 有 记录 的 贷款 (LOANS) 总 额 ， 其 输出 结果 如 图 4.4 所 示 。 该 结果 输出 了 两 行 数据 ， 但 我 们 期 望 的 是 一 个 总 和 。 为 了 解释 结果 ， 在 DATA 步 中 使 
fJ “threadid=_threadid_; ”以 将 执行 各 条 语句 的 线程 号 写 入 到 结果 数据 集中 。 可 以 看 到 DATA 步 为 每 个 线程 所 处 理 的 行 生成 了 一 个 总 额 。 
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图 4.4 “ 行 间 依赖 的 DATA 步 多 线程 运行 结果 


到 DATA 步 中 DATA 语 句 的 SINGLE= 选 项 。 


为 了 得 到 预期 的 所 有 行 的 总 和 ， 还 需要 对 结果 做 进一步 的 处 理 ， 这 时 就 会 
2.SINGLE= 设 置 DATA 步 单线 程 处 理 


使 用 SINGLE= 选 项 的 DATA 步 的 基本 语法 如 下 : 


该 选项 将 使 DATA 步 在 CAS 中 以 单线 程 的 方式 运行 。 


DATA 数据 表 / SINGLE= NO|NOINPUT|YES; 
DATA 步 语句 ; 
RUN; 


:SINGLE=NO 表 示 指 定 DATA 步 以 多 线程 运行 。 
. SINGLE=YES 表 示 指 定 DATA 步 以 单线 程 运行 。 


“SINGLE=NOINPUT 表 示 指 定 当 DATA 步 无 输入 数据 集 时 ， 以 单线 程 运行 。 默 认 就 是 此 模式 。 


SINGLE= 选 项 可 与 4.1.1 节 中 的 SESSREF= 选 项 一 起 使 用 ， 读 者 可 自行 练习 。 


DATA 步 的 SINGLE= 选 项 接着 处 理 行 间 依 赖 的 多 线程 DATA 步 运行 的 结果 mycas.loan_total (如 图 4.4 所 示 ) 。 为 了 保证 代码 的 完整 性 ， 前 面 生成 mycas.loan_total 的 代码 也 一 并 给 出 。 参 考 如 


下 面 利 


下 代码 : 


cas mysess; 
libname mycas cas; 
libname mylocal "/opt/sas/data"; 


data mycas.hmeq; 
set mylocal.hmeq; 
run; 


data mycas.loan_ total; 
set mycas.hmeq end=last; 
retain total 0; 
total=total+loan; 
threadid=_threadid_; 
keep total threadid; 
if last then output; 
run; 


data mycas.loan total2 / single=yes; 
set mycas.loan_total end=last; 
retain loan_total 0; 
loan_total+total; 
keep loan_total; 
if last then 

output; 
run; 


proc print data=mycas.loan_total2; 
run; 


首先 比较 此 代码 的 第 2 个 DATA 步 和 第 3 个 DATA 步 的 运行 日 志 ， 可 以 看 到 ， 带 SINGLE=YES 选 项 的 DATA 步 并 没有 以 多 线程 的 方式 运行 ， 如 图 4.5 所 示 。 


代码 最 后 的 PRINT 过 程 的 输出 结果 如 图 4.6 所 示 ， 该 结果 为 预期 结果 。 


3.THREADS= 设 置 每 个 节点 上 执行 DATA 步 的 线程 数 


THREADS= 选 项 用 于 指定 DATA 步 在 CAs 工 作 节 点 的 每 个 节点 上 执行 的 线程 数 。 默 认 值 为 0， 表 示 使 用 所 人 允许 的 最 大 线程 数 ， 即 该 节点 上 的 CPU 核 数 。 可 通过 调整 该 选项 来 进行 性 能 调 优 。DATA 步 中 使 
该 选项 的 基本 语法 如 下 : 


DATA 数据 表 / THREADS= 数 值 ; 
DATA 步 语句 ; 
RUN; 


NOTE: 


NOTE : 


73 
74 
75 
76 
77 
78 
79 
80 
81 


NOTE: 


NOTE: 


NOTE: 
NOTE: 


data mycas.loan_total; 
set mycas.hmeq end=last; 
retain total @; 
total=total+loan; 
threadid= threadid ; 
keep total threadid; 

if last then output; 


ai HEQ ie TN. 
CAS SRE m HPS 中 的 二 An . 2 个 观测 和 2 个 变量 。 

“DATA 语句 ”所 用 时 | 间 《总 处 理 时 间 ): 

实际 时 间 0.02 #) 

CPU 时 间 0.01 $b 


data mycas.loan_total2 / single=yes; 
set mycas.loan_total end=last; 
retain loan_total ð; 
loan_total+total; 

keep loan_total; 

if last then 

output; 

run; 


Running DATA step in Cloud Analytic Services. 

已 从 cas ZHE HPS 的 表 “LOAN_TOTAL” 中 读 取 2 个 观测 。 

CAS i282 HPS 中 的 表 “loan _ total22 有 1 个 观测 和 1 个 变量 。 
“DATA 语句 ”所 用 时 间 【 总 处 理 时 间 ) : 

实际 时 间 0.02 $) 

CPU 时 间 ] 0.01 秒 


图 4.5 CAS 中 DATA 步 多 线程 和 单线 程 (SINGLE=YES) 运行 日 志 
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4.6 贷款 总 和 计算 结果 


示例 代码 如 下 : 


cas mysess; 
libname mycas cas; 


proc casutil; 
load data=sashelp.cars casout="cars"; 
quit; 


data mycas.cars2; 
set mycas.cars; 
put _threadid ; 

run; T E 


data mycas.cars3 / nthread=1; 
set mycas.cars; 
put _threadid ; 

run; = ~ 


读者 可 自行 提交 代码 并 查看 日 志 ， 这 里 不 再 给 出 。 代 码 中 为 了 便于 理解 总 线程 数 ， 在 日 志 中 输出 了 DATA 步 所 执行 的 线程 号 THREADID_。 该 变量 的 介绍 请 参考 接 下 来 的 内 容 。 


4 .自动 变量 


DATA 步 在 运行 过 程 中 会 自动 生成 变量 ERROR 、_N_、_HOSTNAME_、_NTHREADS_ ， 以 及 THREADID 。 
-ERROR : 当 没 有 错误 发 生 时 ， 该 变量 值 为 0。 当 发 生 错 误 时 ， 该 变量 会 自动 置 为 1。 该 变量 值 可 用 于 帮助 找到 数据 行 中 的 错误 ， 并 在 日 志 中 打印 消息 。 


-N 变量 N_ 初始 设置 为 1。DATA 步 的 每 次 和 迭代， 也 就 是 每 处 理 一 行 ， 该 变量 将 增加 1。_MN_ 表 示 当 前 线程 处 理 的 DATA 步 的 迭代 数 。 可 使 用 带 _ALL_ 参数 的 PUT 语句 将 值 N_ 和 _ERROR_ 打 印 到 日 志 


。 在 多 节点 CAS 服 务 器 会 话 中 ，_N_ 返回 每 个 工作 节点 每 个 线程 所 处 理 的 DATA 步 的 选 代 次 数 ， 通 常 来 讲 ， 也 就 是 每 个 线程 所 处 理 的 表 的 行 数 。 


- LHOSTNAME_: 变量 HOSTNAME 返回 DATA 步 的 各 个 线程 所 运行 的 工作 节点 名 或 主机 名 。 
- NTHREADS_: 变量 NTHREADS 返回 DATA 步 运行 的 总 线程 数 。 
- THREADID_: 变量 THREADID 返回 运行 当前 DATA 步 闪 代 的 线程 号 。 


在 SAS Studio 中 提交 如 下 代码 : 


cas mysess; 
libname mycas cas; 
libname mylocal "/opt/sas/data"; 


proc casutil; 
load data= mylocal.hmeq casout="hmeq"; 
quit; 


data mycas.test; 
set mycas.hmeq; 
put "DRATA 步 运行 总 线程 数 为 #" nthreads ; 
put "HRAT AAP" hostname_ ", RSA #" _threadid_", 该 线程 处 理 的 数据 行 #" _n_; 


run; 


代码 中 DATA 步 运行 的 部 分 日 志 如 图 4.7 所 示 。 总 线程 数 NTHREADS_HMEQ 中 的 行 分 别 在 线程 号 1 和 2 上 执行 。 


读者 可 能 注意 到 图 4.7 中 仅 打印 了 一 行 “DATA 步 运行 总 线程 数 为 2” ， 这 是 因为 SAS Viya 将 所 有 重复 日 志 在 日 志 后 面 进行 了 汇总 并 输出 。 查 看 日 志 后 面 的 部 分 可 以 看 到 “NOTE: DATA 步 输出 的 重复 消 


: DATA 步 运行 总 线程 数 为 2 (出 现 了 5960 次 ) 。 


除了 将 这 些 变量 打印 在 日 志 中， 还 可 以 将 这 些 自动 变量 赋值 给 自 定义 变量 ， 写 入 到 输出 数据 表 中 。 这 里 不 再 给 出 示例 。 
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DATA 


data mycas.test; 

set mycas.hmegq; 

put "DATA 步 运行 总 线程 数 为 #" _nthreads_; 

put "当前 执行 的 节点 名 称 ”_HOSTNAME_“"， 线 程 号 为 #" 


run; 


Running DATA step in Cloud Analytic Services. 
The DATA step will run in multiple threads. 
运行 总 线程 数 为 #2 


当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 #2 ， 该 线程 处 理 的 数据 行 #1 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #1 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #2 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #2 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #3 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #4 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #3 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #5 
当前 执行 的 节点 名 称 CASHOST ， 线 程 号 为 该 线程 处 理 的 数据 行 #6 
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4.2 ”DATA 步 的 VARCHAR 字 符 类 型 


熟知 SAS V9 的 读者 可 能 知道 ，SAS V9 的 引擎 支持 的 数 


(CHAR) 、 可 变 长 度 字 符 串 (VARCHAR) 和 数字 (DOUBLE) 。 前 两 者 为 字符 型 ， 最 后 一 个 为 数字 型 。 


开发 人 员 在 选择 字符 变量 应 为 CHAR 还 是 VARCHAR 时 ， 可 参考 如 下 因 


量 的 最 大 长 度 未 知 


时 ， 可 使 用 VARCHAR (*) 来 表示 定义 无 最 大 长 度 的 字符 变量 。 而 当 字符 数据 长 度 比较 一 致 且 较 短 (KF 


B: 当 字 符 数据 长 度 变化 很 大 ， 且 数据 长 度 很 少 达 到 最 大 长 度 时 ， 应 尽量 利用 


_threadid_"， 该 线程 处 理 的 数据 行 #”_n_; 


居 类 型 为 两 类 : 字符 (CHAR) 和 数字 (Numeric) 。 在 SAS Viya 中 ， 如 第 3 章 所 介绍 的 ，CAS 引 擎 支持 的 数据 类 型 有 固定 长 


型 在 运算 时 会 使 


较 少 的 内 存 且 运算 效率 较 高 。 


F16 字 节 ) 时 ， 例 如 ID 列 ， 最 好 使 


需要 注意 的 是 ， 与 CHAR 不 同 ，VARCHAR (n) 中 的 n 为 字符 数 。 在 UTF-8 编 码 下 ， 一 个 中 文字 符 通常 会 占用 多 个 字 节 。 


4.2.1 LENGTH 语 句 创建 VARCHAR 字 符 变 量 


DATA 步 中 LENGTH 语 句 创 建 数据 类 型 为 YARCHAR 变 量 的 基本 语法 如 下 : 


固定 长 度 的 数据 类 型 。 


度 字符 串 


VARCHAR 数 据 类 型 ， 以 提高 存储 效率 。 此 外 ， 当 变 


为 固定 长 度 的 数据 类 


LENGTH 变 量 名 < 变量 列表 > VARCHAR (数字 |*) 7 


DATA 步 中 LENGTH 语 句 创建 数据 类 型 为 CHAR 变 量 的 基本 语法 如 下 : 


LENGTH 变 量 名 < 变量 列表 > $< 数字 >; 


. 变量 名 为 要 创建 的 变量 的 名 称 ， 必 须 遵 守 SAS 数 据 集 命名 规范 :最 大 长 度 为 32 个 字符 ; 必须 以 字母 (从 A 到 Z， 大 小 写 均 可 ) 或 下 划 线 “ ”开始 ;可 以 是 数字 、 字 母 和 下 划 线 “ ”的 任意 组 合 。 可 以 
在 一 个 LENGTH 语 句 中 定义 多 个 相同 类 型 和 长 度 的 变量 ， 变 量 名 之 间 用 空格 隔 开 。 


. 数字 为 所 创建 字符 变量 的 长 度 。VARCEHAR 变 量 的 取 值 范围 为 1 到 536，870，911 ( 即 ( (231-1) /4) 的 整数 部 分 ) ， 其 表示 可 存储 的 最 大 字符 数 。 语 法 中 的 * 表 示 使 用 允许 的 最 大 长 度 ， 常 用 于 变量 最 
大 字符 数 未 知 的 情况 。 


“CHAR 变量 的 数字 取 值 范围 为 1 到 32，767， 表 示 变 量 的 字 节 数 。 该 数字 可 以 省 略 ， 省 略 该 数字 时 默认 值 为 8。 


参考 如 下 代码 : 


cas mysess; 


libname mycas cas; 


data mycas.test; 
length company varchar (20); 
length company2 $80; 
company="SAS 软 件 北京 有 限 公司 "; 
company2="SAS 软 件 北 京 有 限 公司 "; 


run; 


proc contents data=mycas.test; 


run; 


proc print data=mycas.test; 


run; 


上 面 的 代码 创建 了 可 变 长 度 字符 变量 company， 长 度 为 20; 固定 长 


度 字符 变量 company2， 长 度 为 80。 提 交 上 述 代 码 并 运行 ， 其 部 分 输出 如 图 4.8 所 示 。 


SAS 软 件 北 京 有 限 公 司 | SAS 软 件 北 京 有 限 公司 


4.8 变量 类 型 CHAR 和 VARCHAR 


422 ”字符 变量 类 型 转换 


在 把 存在 VARCHAR 变 量 的 表 复 制 为 不 支持 VARCHAR 的 引擎 (例如 SAS V9 引擎 ) 的 逻辑 库 中 的 表 时 ， 该 字符 变量 的 类 型 和 长 度 会 发 生变 化 。VARCHAR 类 型 会 转换 为 CHAR 类 型 。 如 果 该 变量 显 式 提供 
了 长 度 ， 例 如 VARCHAR (10) ， 则 目标 表 中 CHAR 变 量 的 长 度 为 原 VARCHAR 变 量 长 度 的 4 倍 ， 对 于 VARCHAR (10) 来 说 ， 即 为 40 字 节 。 之 所 以 这 样 ， 是 因为 在 UTF-8 会 话 中 容纳 1 个 字符 最 大 可 能 需要 4 
个 字 节 的 长 度 。 如 果 源 表 中 的 字符 变量 为 未 定 最 大 长 度 变量 (例如 通过 VARCHAR (*) EX) ， 则 目标 表 中 的 CHAR 数 据 类 型 长 度 为 源 表 中 该 变量 值 的 最 长 字符 串 所 占 的 字 节 数 ， 但 是 长 度 不 会 超过 
32，767。 


cas mysess; 
libname mycas cas; 


data mycas.test; 
length company varchar (20) ; 
length company2 $100; 
length company3 varchar (*) ; 


company="SAS 软 件 北京 有 限 公司 
company2="SAS 软 件 北 京 有 限 公司 


do i=1 to 10; 
company3=company3 || "SAS 软件 北京 有 限 公司 "; 
output; 

end; 


drop i; 
run; 


data work.test; 
set mycas.test; 
run; 


proc contents data=mycas.test; 
run; 


proc contents data=work.test; 
run; 


TA, 第 一 个 DATA 步 中 创建 了 CAS 表 mycas.test， 其 中 包括 三 个 变量 : 最 大 长 度 为 20 的 可 变 长 度 字符 变量 company， 长 度 为 100 的 固定 长 度 字 符 变 量 company2， 未 指定 最 大 长 度 的 可 变 长 度 
量 company3。mycas.test 表 中 共有 10 行 数据 ， 在 这 10 行 数据 中 ， 变 量 company 和 company2 的 值 为 “SAS 软 件 北京 有 限 公司 ”， 而 变量 company3 从 表 的 第 1 行 到 第 10 行 ， 其 值 分 别 为 1 个 到 10 
个 “SAS 软 件 北京 有 限 公 司 ”的 串 接 。 第 二 个 DATA 步 会 将 mycas.test 复 制 为 SAs V9 引擎 的 逻辑 库 中 的 表 work.test。 


代码 中 的 两 个 CONTENTS 过 程 分 别 输出 了 mycas.test 和 work.test， 其 变量 信息 分 别 如 图 4.9 和 图 4.10 所 示 。 在 CAS 表 mycas.test 的 变量 信息 (图 4.9) 中 ， 变 量 company 和 company3 的 长 度 分 别 为 20 
和 未 知 长 度 。 复 制 为 SAs V9 引 擎 的 表 work.test 时 ，VARCHAR 变 量 类 型 均 转换 为 CHAR 类 型 ， 其 长 度 分 别 为 80 (为 20 的 4 倍 ) 和 270 ( 即 10 个 “SASs 软 件 北京 有 限 公 司 ”所 占 的 字 节 数 ) 。 


4.2.3 字符 串 处 理 函 数 


图 4.10 SAS V9 引 擎 表 work.test 的 变量 信 ， 


(= 


对 于 存储 在 VARCHAR 和 CHAR 变 量 中 的 字符 串 ， 其 长 度 的 标准 是 不 


同 的 。VARCHAR 变 量 和 CHAR 变 量 的 长 度 将 分 别 按 字符 数 和 字 节 数 进 行 计 算 。 对 于 单字 节 字符 ，1 个 字 节 存储 1 个 字符 。 对 于 多 字 节 


字符 ， 例 如 中 文字 符 在 UTF-8 编 码 下 ， 通 常 是 多 个 字 节 存 储 一 个 字符 。 因 此 ， 对 于 VARCHAR 变 量 和 CHAR 变 量 ， 当 其 存储 多 字 节 字符 时 ， 取 长 度 字符 串 函数 ( 即 LENGTH 函 数 ) ， 其 返回 结果 可 能 是 不 同 


的 。 


参考 如 下 代码 : 


cas mysess; 
libname mycas cas; 


data mycas.test; 
length company varchar (20) ; 
length company2 $80; 
company="SAS 软 件 北京 有 限 公司 "7 
company2="SAS 软 件 北 京 有 限 公司 "; 
len company = length (company); 
len_company2= length (company2); 

run; 


proc print data=mycas.test; 
run; 


4.11 所 示 。VARCHAR 变 量 以 字符 数 计数 ，LENGTH 函 数 返 回 的 长 度 为 “SAs 软 件 北京 有 限 公司 ”的 字符 数 ， 即 11。CHAR 变 量 以 字 节 数 计 数 ，LENGTH 函 数 返 


上 述 代码 的 运行 结果 如 轿 


为 “SAs 软 件 北京 有 限 公司 ”所 占 的 字 节 数 ， 即 27。 


ET 


| SAs 软 件 北 京 有 限 公司 | SAS 软 件 北京 有 限 公司 


图 4.11 VARCHAR 和 CHAR 的 字符 串 长 度 结果 示例 


4.3 “CAS 数 据 的 分 区 和 排序 


无 论 是 在 单机 还 是 分 布 式 架构 的 CAs 中 ， 对 于 在 CAs 内 存 中 的 表 而 言 ， 其 数据 的 行 与 行 之 间 并 没有 特定 的 顺序 。 引 入 顺序 的 方法 是 首先 对 表 进 行 分 


区 或 分 组 ， 然 后 再 进行 排序 。 对 表 进 行 分 


区 时 ，CAS 


会 根据 指定 的 某 个 或 某 几 个 变量 的 值 进行 分 
相同 值 的 行 会 被 分 配 到 同一 个 分 区 里 。 当 存在 多 个 分 区 变量 时 ， 则 会 按照 这 些 变量 值 的 组 合 进行 分 
所 有 分 区 都 在 同一 台 机 器 上 。DATA 步 对 分 区 数据 进行 处 理 时 ， 每 个 线程 将 处 理 一 个 分 


K 


以 通过 如 下 方式 对 CAS 表 进行 分 区 。 


可 


- DATA 步 BY 组 处 理 。 

: DATA 步 的 输出 表 的 PARTITION= 选 项 。 

+ CASUTIL 过 程 中 LOAD 语 句 的 GROUPBY=/PARTITIONBY=。 
- CAS 语 言 中 的 PARTITION ACTION. 


本 节 会 对 前 三 种 方法 进行 介绍 ， 而 PARTITION ACTION 对 数据 的 分 区 本 书 暂 不 介绍 。 


区 ， 如 果 针 对 这 些 变量 定义 了 格式 (Format) ， 则 根据 格式 化 后 的 值 进行 分 区 。 通 常 ， 我 们 称 指定 的 这 个 或 这 几 个 变量 为 分 区 变量 。 具 有 相同 值 或 格式 化 后 ! 
区 。 对 于 分 布 式 CAS 服 务 器 ， 同 一 个 分 区 的 行 〈 也 称 为 同一 个 分 区 ) 在 同一 台 机 器 上 。 对 于 单机 服务 器 ， 
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在 CAs 中 执行 的 DATA 步 中 ，BY 组 处 理 是 对 数据 的 临时 分 组 。 在 CAS 表 上 执行 BY 组 处 理 时 ，DATA 步 会 创建 该 内 存 表 的 临时 备份 ， 该 临时 备份 仅仅 存在 于 DATA 步 作业 期 间 。 一 旦 DATA 步 完成 处 理 ， 该 


俐 时 表 和 其 所 有 BY 组 都 会 消失 。 也 就 是 阅 ，CAs 中 DATA 步 的 BY 组 处 理 不 影响 原始 内 存 表 的 结构 和 分 布 。 因 此 ，BY 组 处 理 更 适合 对 小 表 或 中 表 的 即时 DATA 步 计算 。 


而 CAs 中 的 分 区 特性 ( 非 DATA 步 中 生成 BY 组 
该 分 区 特性 。 


例如 ， 在 对 数据 进行 分 区 后 ， 在 DATA 步 中 使 用 与 分 
支持 GROUPBY 语 句 的 SAs 过 程 时 ， 如 果 指定 的 是 分 区 变量 ， 也 会 具有 性 能 优势 。 


4.3.1_DATA 步 的 BY 组 处 理 和 排序 


在 CAs 中 运行 DATA 步 时 ， 可 使 用 BY 语句 。BY 语 句 中 如 果 只 有 一 个 BY 变量 ， 则 DATA 步 
存在 多 个 BY 变量 时 ， 表 的 数据 行 会 根据 第 一 个 BY 变量 的 值 (或 格式 化 后 的 值 ) 分 成 BY 组 ， 同 一 BY 组 中 再 按照 其 他 BY 变量 的 值 进行 排序 。 


了 BY 语句 ，DATA 步 运行 时 CAS 就 会 根据 BY 变量 自动 排序 。 


与 SAS 9 平台 下 或 SAS Viya 平 台 的 SAS 客 户 端 会 话 不 同 的 是 ，CAS 数 据 表 中 的 数据 不 需要 先 根据 BY 变量 进行 排序 ， 只 要 使 


参考 如 下 代码 : 


的 方式 ) 则 提供 了 永久 和 更 有 效 的 分 布 式 数据 的 分 组 和 管理 。 分 区 和 重新 分 布 的 工作 在 加 载 表 时 完成 ， 所 加 载 的 表 会 变 成 已 分 区 的 表 ， 后 续 的 操作 可 以 利 


区 变量 相同 的 变量 的 BY 组 处 理 时 ， 可 以 直接 利用 表 的 分 区 特性 ， 因 而 其 具有 性 能 优势 。 否 则 ， 会 在 DATA 步 每 次 运行 时 执行 临时 分 组 。 类 似 地 ， 在 使 


运行 时 ， 表 的 数据 行 会 根据 该 变量 的 值 (如 果 该 变量 指定 了 格式 则 按照 格式 化 后 的 值 ) 分 成 BY 组 。 当 BY 语句 中 


cas mysess; 
libname mycas cas; 


proc casutil ; 
load data=sashelp.cars casout="cars"; 


quit; 
data mycas.minihp; 


set mycas.cars; 
by type horsepower; 


if first.type; 
run; 


proc print data=mycas.minihp; 
run; 


DATA 步 中 ，BY 语 句 首先 将 数据 按 type 变 量 进行 分 组 (分 组 之 间 没 有 顺序 ) ， 同 一 个 分 组 (type 值 相同 ) 内 的 数据 行 按 horsepower 值 从 小 到 大 进行 排序 。IF 语 句 将 每 个 分 组 的 第 一 行 输出 到 


mycas.minihp。 也 就 是 说 ，mycas.minihp 包 括 每 个 车 型 (type) 中 马力 (horsepower) 最 小 的 汽车 信息 。 提 交代 码 并 运行 后 ，PRINT 过 程 打 印 的 结果 如 图 4.12 所 示 。 


Obs Make Model Type Origin | DriveTrain MSRP | Invoice EngineSize Cylinders | Horsepower MPG_City MPG_Highway Weight | Wheelbase Length 
1 | Mazda Tribute DX 2.0 SUV | Asia All $21,087 | $19,742 | 2.0 4 130 22 25 3091 103 173 
2 | Toyota Tacoma Truck | Asia | Rear i $12,800 | $11,879 | 24 4 142 | 22 27 | 2750 i 103 : 191 
3 | Honda Insight 2dr (gas/electric) Hybrid | Asia | Front $19,110 | $17,911 | 20 3 73 60 66 1850 95 155 
4 Volkswagen | Jetta GLS TDI 4dr Sedan | Europe | Front $21,055 | $19,638 19 4 100 38 46 3003 99 172 
S| Toyota |MR2Spyderconverible2dr | Spons | Asia | Rear |$25130|$22787| 18| 4| ia) 25| 32| 295| 97| 153 
6 | Kia Rio Cinco Wagon | Asia Front $11,905 | $11,410 | 1.6 4 104 26 33 2447 95 167 
412 DATA 步 中 的 BY 组 和 排序 示例 结果 


源 数据 表 mycas.cars 并 未 按照 变量 type 或 horsepower 进 行 排序 ， 该 DATA 步 可 以 正常 运行 。DATA 步 在 SAs 客 户 端 运行 时 ， 要 求 源 数据 必须 按照 BY 变量 进行 排序 才 可 使 用 BY 语句 ， 否 则 会 出 错 并 停止 处 


理 。 


此 外 ，DATA 步 在 CAS 中 运行 时 ， 如 果 数 据 表 中 的 BY 变量 上 应 用 有 格式 (Format) ， 那 么 CAS 在 处 理 第 一 个 BY 变量 时 会 使 用 


变量 的 原始 值 进行 排序 。 这 点 将 在 本 章 后 面 介绍 格式 时 详细 分 析 。 


格式 化 之 后 的 值 ， 而 不 是 根据 原始 值 来 分 组 。 按 其 他 BY 变量 排序 则 是 使 用 


而 且 ，CAS 会 话 中 的 BY 语句 不 支持 DESCENDING 选 项 。 如 果 BY 语 句 中 存在 DESCENDING 选 项 ， 则 该 DATA 步 会 在 SAS 客 户 端 会 话 中 自动 执行 。 读 者 可 自行 练习 并 试验 。 


4.3.2 ”DATA 步 的 PARTITION= 和 ORDERBY= 数 据 集 选项 分 区 和 排序 


PARTITION= 数 据 集 选 项 用 于 指定 输出 表 的 分 区 变量 。 


参考 如 下 代码 : 


cas mysess; 
libname mycas cas; 


proc casutil; 


load data=sashelp.cars casout="cars"; 


quit; 


data mycas.cars2 (partition=(type) orderby= (make) ); 


set mycas.cars; 
run; 


proc print data=mycas.cars2; 
run; 


代码 中 ，DATA 步 先 将 mycas.cars 中 的 数 
PRINT 过 程 的 部 分 输出 如 图 4.13 所 示 。 


$19,110 


$17,911 


居 按 变量 type 进 行 分 区 ， 在 分 区 内 再 按 make 变 量 进行 排序 ， 生 成 mycas.cars2。 该 表 则 根据 分 区 分 布 到 多 个 工作 节点 (如 果 存 在 多 个 工作 节点 ) 的 内 存 中 。 


$20,140 


+ 


$18,451 


$18,926 


$52,195 
$37,000 


$33,337 
$47,720 
$33,873 


PARTITION= 数 据 集 选 项 可 指定 多 个 分 区 变量 。 当 指定 多 个 分 区 变量 时 ， 数 据 会 按照 这 些 变量 值 (如 果 变量 存在 格式 ， 则 按 


代码 为 partition= (origin type) ， 


图 4.13 ”数据 集 选 项 partition= (type) &orderby= (make) 的 示例 结果 


为 origin 变 量 包含 3 个 唯一 值 ，type 变 量 包含 5 个 唯一 值 ， 所 以 输出 数据 表 会 形成 共 15 个 分 区 。 


4.3.3 ”使 用 CASUTIL 过 程 的 LOAD 语 和 句 进行 分 区 和 排序 


CASUTIL 过 程 的 LOAD 语 句 可 通过 PARTITIONBY= 和 ORDERBY= 选 项 对 CAS 数 据 进行 分 组 ， 并 在 分 组 内 排序 。PARTITIONBY= 选 项 用 于 指定 分 组 
于 指定 在 分 区 内 对 数据 表 的 行进 行 排序 的 变量 ， 该 选项 仅 用 于 分 区 后 的 表 ， 常 与 PARTITIONBY= 一 起 使 用 。 


疏 格 式 化 了 的 值 ) 的 任意 唯一 组 合 进行 分 区 。 例 如 ， 如 果 上 例 中 分 区 的 选项 


变量 名 ， 也 写作 GROUPBY=。ORDERBY= 选 项 用 


cas mysess; 


libname mycas cas; 


proc casutil; 
load data=sashelp.cars casout="cars" partitionby= (type) 
orderby= (make) ; 
quit; 


proc print data=mycas.cars; 
run; 


上 述 代 码 中 ，CASUTIL 过 程 的 LOAD 语 句 在 数据 加 载 时 对 数据 进行 分 区 和 排序 。PRINT 过 程 的 运行 结果 与 图 4.13 一 样 ， 读 者 可 自行 提交 查看 。 


与 DATA 步 的 PARTITION= 数 据 集 选项 相同 ，CASUTIL 过 程 的 LOAD 语 句 中 也 支持 多 个 分 区 变量 ,其 结果 也 与 其 类 似 ， 这 里 不 再 歼 述 。 


434 查看 CAS 表 的 分 区 信息 


可 使 用 ACTION TABLEDETAILS 查 看 CAS 表 的 分 区 信息 。 参 考 如 下 代码 : 


cas mysess; 


proc casutil; 
load data=sashelp.cars casout="cars" partitionby=(type) orderby= (make) ; 
quit; 


proc cas; 
table.tabledetails result=a / level='partition' name="cars"; 
saveresult a dataout=work.a; 

run; 

quit; 


proc print data=work.a; 
run; 


CASUTIL 过 程 生成 分 区 的 CAs 表 cars。ACTION TABLEDETAILS 和 SAVERESULT 将 cars 的 分 区 信息 输出 到 SAs 数 据 集 work.a。PRINT 过 程 的 输出 work.a 的 数据 如 图 4.14 所 示 。 列 “Key (Type) ”表示 
对 表 按照 变量 Type 进行 分 区 ， 该 列 的 值 为 CAS 表 各 分 区 的 分 区 变量 值 。 


通过 PARTITION= 数 据 集 选项 分 区 的 CAs 表 也 可 通过 相同 的 方法 得 到 相应 的 分 区 信息 。 


44 ACTION DATASTEP.RUNCODE 执 行 DATA 步 代码 


SAS Viya 中 ，ACTION 集 DATASTEP 中 的 RUNCODE ACTION 可 直接 执行 DATA 步 代码 。 运 行 DATA 步 代码 的 ACTION 的 基本 语法 如 下 : 


DATASTEP.RUNCODE <RESULT= 结 果 表 > <STATUS= 状 态 码 > / 
CODE="DATA 步 代码 " NTHREAD= 整 数 | "MAX"; 


- RESULT= 和 STATUS= 为 ACTION 的 通用 选项 ， 请 参考 第 8 章 中 关于 ACTION 的 介绍 。 
+ CODE= 指 定 要 运行 的 DATA 步 代码 。 注 意 要 将 代码 放 在 双 引 号 中 ， 代 码 中 需要 用 到 引号 时 则 使 用 单 引号 ， 或 者 使 用 两 个 连续 的 双 引 号 进行 转 义 。DATA 步 代码 中 需要 注意 以 下 几 点 。 
1) 输入 输出 表 指 定 的 逻辑 库 必须 是 CAS 多 辑 库 ， 而 不 是 CAS3 引 擎 的 SAS 逻 辑 库 。 


2) 变量 的 命名 规范 : 长 度 为 1 ~ 255 个 字符 ; 可 包含 数字 、 字 母 和 下 划 线 “_”; 如 果 变 量 为 名 称 文字 (在 以 n 结 尾 的 引号 中 ) 的 形式 ， 可 包含 特殊 字符 ( 八 ?"<>|: -) 。 例 如 "abcde<test> "n 为 合法 


变量 名 。 


3) 表 的 命名 规范 : 最 大 长 度 为 32 个 字符 ; 可 包含 数字 、 字 符 和 下 划 线 “”。 不 要 使 用 名 称 文字 。 


“NTHREAD= 选 项 用 于 指定 DATA 步 运行 的 线程 数 。 在 分 布 式 CAS 服 务 器 中 ， 该 数字 为 每 个 工作 节点 上 运行 的 线程 数 。 取 值 为 MAX 时 ， 运 行 线程 数 为 CPU 核 数 。 默 认 值 为 MAX。 


参考 如 下 代码 : 


Cas mysess; 


proc casutil; 
load data=sashelp.cars casout="cars"; 
quit; 


proc cas; 
loadactionset "datastep"; 
datastep.runCode / 
code="data casuser.minihp; 
set casuser.cars; 
by type horsepower; 
if type.first; 


run;"7 
fetch / table={name="minihp"}; 
quit; 


该 代码 使 用 了 ACTION 集 DATASTEP 的 RUNCODE ACTION， 提 交 参 数 code 所 指定 的 DATA 步 代码 ， 即 在 双 引 号 内 的 代码 。 当 代码 中 省 略 CASs 逻 辑 库 casuser 时 ， 会 使 用 活动 CAS 逻 辑 库 。 为 了 显示 清 


晰 ， 图 4.15 给 出 了 FETCH ACTION 打 印 minihp 表 的 部 分 变量 值 。 读 者 可 参考 4.3.1 节 中 的 代码 解释 。 


通过 ACTION 执 行 DATA 步 代码 的 功能 ， 可 用 于 与 SAS Viya 支 持 的 第 三 方 开发 语言 集成 ， 以 进行 数据 处 理 。 关 于 这 点 可 参考 本 书 的 第 9 章 。 


Results from table fetch 
Le “MINIHP ”中 选 定 行 
_Index_ | Make Model Type Origin | DriveTram p Invoice z] aus Cylinders ERN 
| 1 | Mazda Tribute DX 2.0 SUV Asia | $21, 087 | $19,742 | 4 130 
| 2 | Toyota Tacoma | Truck | Asia Rear | $12.800 $11,879 | 2.4 4 142 | 
3 | Honda Insight 2dr Hybrid | Asia | Front | $19,110 | $17,911 | 2 3 73 
(gas/electric) | 
4 | Volkswagen | JetaGLS TDI 4dr | Sedan | Europe | Front | $21,055 | $19,638 | 19| a] 100| | 
| 5 | Toyota MR2 Spyder | Sports | Asia Rear | $25,130 | $22,787 | 1.8 4 138 
| convertible 2dr 
| 6 | Kia | Rio Cinco | Wagon | Asia | Front | $11,905 | $11,410 | 1.6 | 4 | 104 | 


4.15 ACTION DATASTEP.RUNCODE 运 行 DATA 步 代码 示例 


4.5 在 CAs 中 应 用 格式 进行 数据 处 理 


格式 (Format) 是 在 显示 数据 值 或 输出 数据 值 时 应 用 的 模式 或 执行 的 指令 。 输 入 格式 (Informat) 是 在 数据 值 作为 输入 被 读 取 时 应 用 的 模式 或 执行 的 指令 。SAS Viya 为 各 种 数据 类 型 数字、 字符 、 
日 期 、 时 间 及 时 间 戳 ) 提供 了 相应 的 格式 和 输入 格式 。 


格式 的 基本 形式 为 <$>format<w>.<d>。 其 中 各 项 解释 如 下 。 

“$ 表 示 该 格式 为 字符 格式 ， 不 带 $ 表 示 该 格式 为 数字 格式 。 

+ format 是 格式 名 ， 可 以 是 SAS 格 式 或 使 用 PFORMAT 过 程 创建 的 用 户 自 定义 格式 。 
“ Ww 表示 格式 宽度 ， 对 于 大 多 数 格式 ， 该 值 将 指定 输出 数据 所 占 的 列 数 。 

“ 为 变量 指定 格式 时 ， 必 须 在 格式 名 称 后 加 到 点 符号 “.”。 


“ d 表 示 数 字 格 式 的 小 数 的 位 数 。 省 略 w 和 /或 d 时 ，SAS 将 使 用 其 默认 值 。 


例如 数字 格式 DOLLAR10.2，w 的 值 为 10， 表 示 该 数字 最 大 为 10 列 ， 其 中 包含 符号 、 整 数 部 分 、 小 数 点 和 小 数 部 分 。d 为 2， 表 示 显 示 该 数字 时 应 显示 两 位 小 数 。 数 字 12345.6789 经 其 格式 化 后 ， 显 示 
为 “$12，345.68”。 在 SAS Viya 中 ， 日 期 、 时 间 和 时 间 惟 均 会 存储 为 数字 ，SASs 提 供 各 种 日 期 、 时 间 和 时 间 戳 格式 将 其 显示 为 对 应 的 形式 。 在 SAS 9 下 的 格式 和 输入 格式 当中 ,WORDS、WORDSF、 
WORDDATE、WEEKDATE 格 式 和 输入 格式 在 CAS 中 无 效 。 


格式 应 用 于 数据 既 可 能 是 临时 性 的 ， 也 可 能 是 永久 性 的 。 临 时 属性 将 在 当 次 应 用 时 生效 ， 而 不 会 影响 该 数据 的 下 一 次 处 理 ， 例 如 在 PRINT 过 程 中 用 FORMAT 语 句 添加 的 格式 ， 其 仅仅 对 当 次 的 PRINT 过 
程 生效 。 永 久 属性 会 影响 数据 的 每 一 次 处 理 ， 例 如 在 通过 DATA 步 生成 数据 表 时 为 数据 列 指定 的 格式 为 永久 属性 ， 以 后 每 次 对 该 数据 列 进行 与 格式 相关 的 处 理 ， 该 格式 都 会 生效 。 数 据 表 中 的 变量 是 否 指定 
了 格式 可 通过 CONTENTS 过 程 或 TABLE.COLUMNINFO ACTION 来 获取 。 参 考 图 4.17， 可 以 看 出 列 MSRP、Invoice 的 格式 为 DOLLAR， 变 量 EngineSize 的 格式 为 ENGINESIZE。DOLLAR 为 SAS 格 
式 ，ENGINESIZE 为 自 定义 格式 。 


SAS Viya 中 提供 的 FORMAT 过 程 可 用 于 用 户 创建 自 定义 格式 。 通 过 自 定义 格式 ， 用 户 可 以 对 变量 的 不 同 值 或 不 同 范围 的 值 设 定 自 定义 的 显示 或 处 理 。 对 数据 值 进行 自 定义 格式 化 ， 除 了 可 在 输出 时 增加 
数据 和 报表 的 可 读 性 之 外 ， 还 可 以 使 用 格式 化 了 的 值 而 不 是 原始 值 进行 数据 分 区 或 分 组 ， 以 及 建 模 等 处 理 。 


4.5.1 ”FORMAT 过 程 创建 格式 钦 辑 库 


FORMAT 过 程 通过 指定 CASFMTLIB 选 项 ， 在 SAS 客 户 端 会 话 中 指定 的 SAS 逻 辑 库 下 创建 格式 目录 ， 同 时 ， 它 还 可 将 其 以 CAS 格 式 逻 辑 库 的 形式 加 载 到 CAS 会 话 中 。CAS 服 务 器 使 用 CAs 格 式 逻 辑 库 来 存 
储 自 定义 格式 。 在 本 书 中 ， 如 不 另 加 严格 说 明 ，CAS 格 式 逻 辑 库 与 格式 逻辑 库 意 义 相同 。 如 果 CAS 会 话 中 已 经 存在 格式 逻辑 库 ， 那 么 SAS 会 更 新 该 格式 逻辑 库 。 带 CASFMTLIB 选 项 的 FORMAT 过 程 的 基本 形 
式 如 下 : 


PROC Pee a asia .格式 目录 名 > CASFMTLIB="cas 格 式 罗 辑 库 名 "” <SESSREF= CAS 会 话 名 >; 
定义 语 
RUN; 


LIBRARY= 选 项 指定 二 级 目录 ， 指 定格 式 罗 辑 库 在 SAS 客 户 端 会 话 保存 的 SAS 逻 辑 库 和 格式 目录 名 称 ， 即 为 SAS 逻 辑 库 名 和 格式 目录 名 。SAS 格 式 目录 在 文件 系统 中 表现 为 后 组 是 .sas7bcat 的 文件 ， 用 于 
存储 自 定义 格 式 。 该 选项 省 略 时 会 自动 将 其 保存 在 WORK 逻 辑 库 的 FORMATS 目 录 中 。 如 果 仅 指定 SAS 逻 辑 库 名 ， 则 格式 目录 名 为 FORMATS。 


+ CASFMTLIB= 选 项 指定 的 CAS 格 式 罗 辑 库 名 为 一 级 目录 ， 也 就 是 说 ， 直 接 为 格式 逻辑 库 名 。 该 格式 逻辑 库 名 大 小 写 敏感 。 
+ SESSREF= 选 项 用 于 指定 将 所 创建 的 CAS 格 式 逻 辑 库 加 载 到 哪个 CAS 会 话 中 。 该 选项 省 略 时 ， 默 认为 将 其 加 载 到 活动 CAS 会 话 。 


关于 格式 定义 语句 ， 本 书 中 暂 不 详 述 。 下 面 给 出 一 个 创建 格式 ENGINESIZE 的 示例 : 


cas mysess; 


proc format library=work.formats casfmtlib="casformats"; 
value enginesize 


low - <2.7="Very economical" 
n 


: gi 
6.9 - high="Very large"; 
run; 


代码 中 ，FORMAT 过 程 在 创建 SAS 客 户 端 会 话 可 用 的 格式 逻辑 库 formats， 保 存在 临时 逻辑 库 WORK 中 ， 同 时 ， 还 为 CAS 会 话 创建 了 格式 逻辑 库 casformats， 并 将 casformats 添 加 到 活动 CAS 会 话 
casauto 的 格式 搜索 列表 (格式 搜索 列表 的 概念 将 在 后 面 的 4.5.6 节 中 介绍 ) 。 格 式 enginesize ( 紧 跟 关键 字 value) 会 将 小 于 2.7 的 数字 值 格式 化 为 “Very economical”; 2.7 到 4.1 的 数字 值 格式 化 
为 “Small”; 4.1 到 5.5 的 数字 值 格式 化 为 “Medium”; 5.5 到 6.9 的 数字 值 格式 化 为 “Large”; 高 于 6.9 的 数字 值 格式 化 为 “Very Large”。 


4.5.2 ” CAS 中 自 定义 格式 的 应 用 


下 面 就 来 参考 图 4.16 解 释 在 CAS 会 话 中 格式 的 应 用 。 自 定义 格式 在 SAS 客 户 端 会 话 中 通过 FORMAT 过 程 创建 ， 并 加 载 到 CAS 会 话 (如 图 中 的 1 处 ) 。FORMAT 过 程 还 会 将 该 格式 逻辑 库 的 名 称 加 入 格式 
逻辑 库 搜索 列表 当中 。 当 CAS 会 话 处 理 到 具有 格式 的 表 时 ， 首 先 会 在 CAS 会 话 的 格式 逻辑 库 搜索 列表 ， 并 按照 列表 中 的 顺序 从 前 往 后 在 各 个 格式 逻辑 库 中 搜索 格式 。 若 搜索 到 了 指定 的 格式 ， 则 使 用 该 格式 
定义 进行 下 一 步 处 理 ; 如 果 不 存在 ， 则 该 处 理 报错 。 如 果 名 称 相同 的 格式 存在 于 多 个 格式 逻辑 库 中 ， 则 使 用 最 先 出 现 该 格式 名 称 的 格式 逻辑 库 中 的 格式 。 为 了 在 CAS 会 话 中 正确 应 用 格式 ， 需 要 让 该 格式 的 
格式 逻辑 库 在 CAsS 会 话 中 可 用 ， 还 需要 让 该 格式 逻辑 库 的 名 称 存 在 于 格式 逻辑 库 搜索 列表 中 。 


加 载 到 CAs 会 话 中 的 格式 逻辑 库 可 通过 CAS 语 名 的 SAVEFMTLIB 选 项 保存 到 CAs 表 或 文件 中 。 同 样 也 可 以 将 保存 在 CAs 表 或 文件 中 的 格式 逻辑 库 通 过 CAs 语 名 的 ADDFMTLIB 选 项 加 载 到 CAs 会 话 中 ， 如 
图 4.16 的 2 和 2” 所 示 。 本 章 后 面 的 4.5.5 节 会 介绍 ADDFMTLIB 选 项 的 具体 用 法 。 


SAS 客户 端 会 话 


图 4.16 CAS 中 应 用 自 定义 格式 


下 面 分 别 介绍 格式 逻辑 库 的 管理 和 应 用 ， 以 及 CAs 中 格式 逻辑 库 搜索 列表 的 维护 。 


45.3 FORMAT 语 句 为 变量 指定 格式 


表 必 须 在 被 加 载 到 CAS 服 务 器 内 存 之 前 或 在 加 载 时 为 表 的 变量 指定 格式 ， 表 在 被 加 载 到 CAs 内 存 中 之 后 就 不 可 以 再 指定 或 修改 要 应 用 的 格式 名 称 了 。 在 指定 格式 时 ， 并 不 要 求 该 格式 必须 在 CAS 会 话 中 
可 用 。DATA 步 的 FORMAT 语 句 或 CASUTIL 过 程 的 FORMAT 语 句 可 为 表 指 定格 式 。FORMAT 语 句 应 用 指定 格式 的 基本 语法 如 下 : 


FORMAT 变量 名 1 < 变量 名 2 > <$> 格 式 名 .7 


“ 变量 名 1 指定 要 进行 格式 化 的 列 。 一 个 格式 可 以 应 用 于 多 个 变量 ， 变 量 之 间 用 空格 隔 开 。 


: 格式 名 指定 要 应 用 于 指定 变量 的 格式 名 称 。 格 式 名 称 后 必须 带 去 点 符号 “.”， 如 果 格 式 为 字符 型 变量 格式 ， 则 需要 带 $ 符 号 ; 如 果 是 数字 型 变量 格式 ， 则 不 需要 $。 


1.CASUTIL 过 程 中 指定 格式 


下 面 就 在 上 述 定义 和 加 载 格式 的 代码 基础 上 ， 使 用 CASUTIL 过 程 指定 格式 ， 代 码 如 下 : 


cas mysess; 


proc casutil; 
format enginesize enginesize.; 
load data=sashelp.cars casout="cars"; 
contents casdata="cars"; 


quit; 


CASUTIL 过 程 为 表 cars 的 列 enginesize 指 定格 式 ENGINESIZE (本 例 中 变量 名 和 格式 名 相同 ， 是 为 了 在 定义 格式 时 便于 区 分 该 格式 的 目的 ， 在 语法 上 并 无 此 要 求 ) ， 并 将 其 加 载 到 内 存 。 代 码 中 还 使 
CONTENTS 语 句 (也 可 使 用 CONTENTS 过 程 查看 数据 表 的 属性 ) 输出 了 CAS 表 cars 的 变量 信息 ， 其 部 分 截图 如 图 4.17 所 示 ， 变 量 enginesize 的 输出 格式 为 ENGINSIZE (格式 属性 为 CAS 表 cars 的 永久 属 


性 ) 。 


CAS 逻辑 库 “CASUSER{(sasdemo)” 中 “CARS” 的 列 信 息 


OLLAR 


图 4.17 带 输出 格式 的 变量 信息 


2.DATA 步 中 指定 格式 


同样 ， 也 可 以 在 DATA 语 句 中 写 入 表 时 使 用 FORMAT 语 句 为 表 的 列 指定 格式 ， 代 码 如 下 。 读 者 可 自行 提交 查看 CASUTIL 过 程 的 CONTENTS 语 句 的 输出 。 


cas mysess; 
libname mycas cas; 


proc casutil; 
load data=sashelp.cars casout="cars"; 


quit; 
data mycas.cars; 

set mycas.cars; 

format enginesize enginesize.; 
run; 


proc casutil; 
contents casdata="cars"; 
run; 


3. 将 带 格 式 表 加 载 到 CAS 
带 格 式 的 表 或 文件 加 载 到 CAS 服 务 器 中 成 为 CAS 表 时 ， 格 式 会 随 着 表 一 起 被 加 载 。 这 里 的 表 和 文件 可 以 是 SAS 数 据 集 、.sashdat 文 件 等 。 


首先 提交 如 下 代码 创建 带 格式 ENGINESIZE. 的 SAS 数 据 集 work.cars: 


proc format library=work, formats; 
value enginesize 
low - <2.7="Very economical" 
2.7 - <4,1="Small" 
4.1 - <5.5="Medium" 
5.5 - <6.9=" Large" 
6.9 - high="Very large"; 


run; 


data work.cars; 

set sashelp.cars; 

format enginesize enginesize.; 
run; 


接着 在 相同 的 SAS 客 户 端 会 话 中 提交 如 下 代码 : 


cas mysess; 
libname mycas cas; 


proc casutil; 
load data=work.cars casout="cars"; 
contents casdata="cars"; 

quit; 


代码 运行 后 ， 可 以 发 现 CASUTIL 过 程 的 CONTENTS 语 句 输出 的 变量 属性 与 图 4.17 相 同 ， 变 量 enginesize 的 格式 为 ENGINESIZE。 


4.5.4 “CAs 中 带 格式 变量 的 处 理 


当 在 过 程 步 或 DATA 步 中 处 理 格式 化 的 值 时 ，SAS Viya 会 在 格式 逻辑 库 搜索 列表 中 按 顺序 搜索 该 格式 ， 而 且 该 格式 所 在 的 格式 逻辑 库 必 须 在 CAS 会 话 中 存在 并 可 用 。 如 果 该 格式 不 存在 ， 那 么 这 些 过 程 


步 或 DATA 步 就 会 出 错 ， 出 错 消息 类 似 于 “ERROR: 无 法 在 Cloud Analytic Services 中 加 载 某 些 格式 。” 


当 格 式 存在 时 ， 这 些 过 程 步 和 DATA 步 都 会 使 用 该 列 格式 化 了 的 值 进行 处 理 ， 而 不 是 原始 值 。 下 面 给 出 几 个 例子 ， 在 这 些 例 子 执行 之 前 先 提交 如 下 代码 创建 CAS 中 可 用 的 格式 ENGINESIZE， 并 将 其 应 用 


到 CAS 表 mycas.cars。 


cas mysess; 


proc format library=work.formats casfmtlib="casformats"; 
value enginesize 
low - <2.7="Very economical" 


55> X65 
6.9 - high="Very large"; 
run; 


proc casutil; 

format enginesize enginesize.; 

load data=sashelp.cars casout="cars"; 
quit; 


1. 带 格式 的 值 的 展示 


在 SAS studio 中 打开 该 表 ， 或 在 PRIINT 过 程 中 打印 表 中 带 格式 的 列 ， 该 列 显 示 的 是 格式 化 之 后 的 值 。 读 者 可 提交 如 下 代码 查看 PRINT 过 程 的 输出 中 变量 enginesize 值 。 


libname mycas cas; 


proc print data=mycas.cars; 
run; 


PRINT 过 程 打 印 的 部 分 输出 如 图 4.18 所 示 。 
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图 4.18 格式 化 EngineSize 的 表 
在 SAS Studio 中 打开 上 面 代 码 创 建 的 CAS 表 cars2 时 ， 变 量 enginesize 同 样 会 根据 值 的 范围 显示 为 “Very economical" “Small”、“Medium” 等 。 


2.DATA 步 的 BY 组 处 理 


DATA 步 中 带 格式 的 BY 变量 处 理 的 示例 代码 如 下 : 


libname mycas cas; 


data mycas.cars2; 

set mycas.cars; 

by enginesize make; 
run; 


proc print data=mycas.cars2 (keep=enginesize make); 
run; 


PRINT 过 程 的 输出 如 图 4.19 所 示 。 
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4.19 ”使 用 EngineSize 格 式 化 后 的 值 进行 BY 组 处 理 的 结果 


3. 作 为 MDSUMMARY 过 程 的 分 组 变量 


使 用 MDSUMMARY 过 程 将 表 mycas.cars 按 enginesize 的 “ 值 ” (格式 化 之 后 的 值 ) 分 组 ， 并 计算 作 各 个 组 中 变量 mpg_highway 的 统计 量 ， 代 码 如 下 : 


libname mycas cas; 


proc mdsummary data=mycas.cars; 

var mpg_highway; 

groupby enginesize / out=mycas.mpg_hwy by size; 
run; 


proc print data=mycas.mpg_hwy by size; 
var enginesize Colum _NObs_ Mean Max Min Std; 
run; 


代码 输出 如 图 4.20 所 示 ， 可 以 看 到 EngineSize 会 自动 使 用 格式 化 之 后 的 值 进行 处 理 。 读 者 可 使 用 不 带 格式 的 相同 的 数据 表 进行 相同 的 操作 来 做 比较 ， 就 能 很 容易 理解 其 差异 ， 这 里 不 再 玖 述 。 
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4.20 MDSUMMARY 中 使 用 EngineSize 格 式 化 后 的 值 进 行 处 理 的 结果 


4.5.5 “CAs 格 式 逻辑 库 的 管理 


CASs 格 式 逻 辑 库 可 保存 在 表 或 路 径 中 ， 所 保存 的 CAs 格 式 逻 辑 库 可 以 直接 加 载 到 会 话 中 而 不 必 重 新 生成 ， 会 话 范围 的 CAs 格 式 逻 辑 库 可 提升 为 全 局 可 用 ，CAs 格 式 逻 辑 库 也 可 以 被 删除 。 本 节 将 主要 介 
绍 对 CAS 格 式 逻 辑 库 的 管理 操作 。 


1. 保 存 CAS 格 式 罗 辑 库 


CAS 格 式 逻 辑 库 可 保存 在 CAS 表 中 ， 或 者 直接 保存 在 路 径 中 。 保 存 CAS 格 式 逻 辑 库 的 基本 形式 为 : 


CAS CAS 会 话 名 SAVEFMTLIB FMTLIBNAME= 格 式 逻 辑 库 名 TABLE= 表 名 <CASLIB=CAS 逻 辑 库 名 > <REPLACETABLE>; 


或 : 


CAS CAS 会 话 名 SAVEFMTLIB FMTLIBNAME= 格 式 逻 辑 库 名 PATH=" 文 件 名 "; 


格式 逻辑 库 名 指定 要 保存 的 CAS 格 式 逻 辑 库 名 。 通 常 为 FORMAT 过 程 创 建 该 格式 逻辑 库 时 ，CASFMTLIB 选 项 所 指定 的 名 称 。 


“TABLE= 选 项 指定 CAS 格 式 逻 辑 库 要 保存 的 CAS 表 的 表 名 ; PATH= 选 项 指定 格式 信息 保存 的 文件 名 ， 该 路 径 必须 对 CAS 榨 制 器 可 访问 。 
+ CASLIB= 选 项 指定 CAS 格 式 逻 辑 库 要 保存 的 CAS 表 所 在 的 CAS 带 辑 库 。 省 略 该 选项 时 ， 默 认 将 表 保 存在 活动 CAS 远 辑 库 中 。 该 选项 在 使 用 PATH= 选 项 时 无 效 。 


:REPLACETABLE 选 项 指定 当 指定 表 存 在 时 替换 该 表 。 如 果 未 指定 该 选项 ， 则 指定 表 存 在 时 该 语句 运行 会 出 错 。 该 选项 在 使 用 PATH= 选 项 时 无 效 。 


将 CAs 格 式 逻辑 库 保存 为 CAs 表 时 ， 同 时 也 会 在 CASLIB= 指 定 的 CAs 逻 辑 库 所 指定 的 位 置 生成 同名 的 .sashdat 文 件 。 


保存 格式 逻辑 库 的 代码 示例 如 下 : 


cas casauto savefmtlib fmtlibname=casformats table=enginefmt replacetable; 


上 述 代码 是 将 CAs 格 式 逻 辑 库 casformats 保 存在 会 话 casauto 的 活动 CAS 逻 辑 库 的 表 enginefmt 中 。 


cas mysess savefmtlib fmtlibname=casformats path="/opt/sas/data/casformats"; 


上 述 代 码 是 将 CAs 格 式 逻 辑 库 casformats 保 存在 CAs 控 制 器 的 路 径 /opt/sas/data 的 casformats 文 件 中 。 


2. 加 载 CAS 格 式 逻 辑 库 到 CAS 会 话 


若 CASs 格 式 逻辑 库 已 经 保存 到 了 CAS 逻 辑 库 中 的 表 或 系统 的 路 径 中 ， 那 么 可 以 将 这 些 已 经 存在 的 格式 逻辑 库 加 载 到 CAS 会 话 中 。 使 用 带 ADDFMTLIB 选 项 的 CAs 语 句 即 可 加 载 保存 在 CAS 表 或 路 径 中 的 
CAS 格 式 逻 辑 库 ， 同 时 也 会 将 其 名 称 添 加 到 CAS 会 话 的 格式 逻辑 库 搜索 列表 中 。 其 基本 语法 格式 如 下 : 


CAS CRAS 会 话 名 ADDFMTLIB FMTLIBNAME= 格 式 逻 辑 库 名 TABLE= 表 名 | PATH=" 文 件 名 " <CASLIB=CAS 
逻辑 库 名 > <POSITION=APPEND| INSERT | REPLACE |NONE> <PROMOTE> <REPLACELIB>; 


“CAS 会 话 名 指定 将 格式 还 辑 库 加 载 到 哪个 CAS 会 话 。 

“FMTLIBNAME= 指 定 从 表 或 文件 中 加 载 到 CAS 会 话 后 生成 的 格式 逻辑 库 的 名 称 。 如 果 以 该 名 称 命名 的 格式 逻辑 库 在 指定 的 CAS 会 话 中 不 存在 ， 则 加 载 ; 如 果 已 经 存在 ， 则 参照 选项 的 使 用 。 
“TABLE= 指 定格 式 逻辑 库 所 在 的 CAS 表 的 名 称 ; PATH= 指 定格 式 逻 辑 库 所 在 的 文件 名 。TABLE= 与 PATH= 不 同时 使 用 。 

" CASLIB= 选 项 指定 格式 还 辑 库 所 在 表 的 CAS 逻 辑 库 。 该 选项 仅 当 指定 TABIE= 选 项 时 有 效 。 当 指定 了 TABLE= 选 项 ， 但 未 指定 CASLIB= 选 项 时 ， 默 认 将 格式 逻辑 库 添加 到 活动 的 CAS 逻 辑 库 中 。 


+ POSITION= 选 项 指定 该 格式 逻辑 库 在 格式 搜索 列表 中 的 位 置 。 值 APPEND 为 结尾 处 、INSERT 为 开始 处 、REPLACE 为 使 用 该 格式 还 辑 库 代 赫 格式 搜索 列表 、NONE 为 不 将 该 格式 还 辑 库 加 入 格式 搜索 
列表 。 该 选项 可 选 ， 其 默认 值 为 APPEND。 


- PROMOTE 选 项 表示 将 格式 逻辑 库 提升 为 全 局 范围 ， 对 所 有 CAS 会 话 可 用 。 不 带 该 选项 时 ， 所 添加 的 格式 逻辑 库 是 会 话 范围 。 


:REPLACEILIB 选 项 指定 如 果 已 经 存在 命名 相同 的 格式 逻辑 库 ， 则 蔡 换 。 如 果 存 在 该 格式 逻辑 库 又 未 指定 该 选项 ， 则 该 语句 会 运行 出 错 。 


在 SAS Studio 中 先 提交 如 下 代码 将 自 定 义 格 式 逻 辑 库 保 存在 /opt/sas/data/ENGINESIZE.sashdat 中 : 


cas mysess; 


caslib mypathcas datasource=(srctype="path") 
path="/opt/sas/data/"; 


proc format library=work.formats casfmtlib="casformats"; 
value enginesize 

Very economical" 

Small 


E 二 

5.5 ~ <6.9=" Large" 

6.9 - high="Very large"; 
run; 


cas mysess savefmtlib fmtlibname=casformats table=ENGINESIZE replacetable; 


将 保存 在 路 径 /opt/sas/data 中 的 文件 ENGINESIZE.sashdat 的 格式 逻辑 库 加 载 到 CAS 会 话 mysess2 的 示例 代码 如 下 : 


cas mysess2; 


caslib mypathcas datasource=(srctype="path") 
path="/opt/sas/data"; 


cas mysess2 addfmtlib fmtlibname=casformats2 table=enginesize caslib=mypathcas; 


该 代码 还 会 将 该 格式 逻辑 库 添加 到 格式 搜索 列表 的 结尾 处 。 


要 将 保存 在 文件 /opt/sas/data/casformats 中 的 格式 逻辑 库 加 载 到 CAS 会 话 mysess2 中 ， 可 使 用 如 下 示例 代码 。 该 格式 逻辑 库 也 会 以 APPEND 方 式 更 新 到 格式 搜索 列表 。 


cas mysess2; 
cas mysess2 addfmtlib fmtlibname=casformats2 
path="/opt/sas/data/casformats"; 


3. 列 出 格式 逻辑 库 


CAS 语 句 的 LISTFORMATS 选 项 列 出 CAS 会 话 中 的 格式 逻辑 库 及 其 属性 的 基本 形式 如 下 : 


CAS CAS 会 话 名 LISTFORMATS <FMTLIBNAME= 格 式 逻 辑 库 名 > <SCOPE=BOTH | SESSION | GLOBAL> <MEMBERS>; 


+ CAS 会 话 名 指定 操作 的 CAS 会 话 。 
" FMTLIBNAME= 选 项 指定 要 列 出 格式 的 格式 逻辑 库 的 名 称 。 该 选项 省 略 时 ， 默 认 是 指 列 出 指定 CAS 会 话 名 的 所 有 格式 逻辑 库 。 


+ SCOPE= 选 项 指定 要 列 出 的 格式 逻辑 库 的 作用 域 。 值 为 BOTH 时 则 列 出 会 话 作用 域 和 全 局 作用 域 的 格式 逻辑 库 ，SESSION 表 示 仅 列 出 会 话 作 用 域 的 格式 逻辑 库 ，GLOBAL 表 示 仅 列 出 全 局 作用 域 的 格 
式 逻 辑 库 。 该 选项 省 略 时 其 值 为 SESSION。 


:MEMBERS 选项 指定 列 出 每 个 格式 逻辑 库 的 成 员 名 。 


参考 如 下 代码 : 


cas mysess; 


proc format library=work.formats casfmtlib="casformats"; 
value enginesize 


5.5 ~ <6.9="Large" 

6.9 - high="Very large"; 
value horsepower 

low - <150="Small" 

150 - <300="Medium" 

300 - high="Large"; 


run; 


proc format library=work.formats2 casfmtlib="casformats2"; 
value price 
low — <20000="Low" 
20000 - <50000="Normal" 
50000 - high="High"; 


run; 


cas mysess listformats members; 


上 述 代码 的 最 后 一 行 在 日 志 中 的 输出 如 图 4.21 所 示 。 


79 cas mysess listformats members; 
NOTE: Fmtlib = CASFORMATS2 

Scope = Session 

Fmtsearch = YES 

Format = price 
NOTE: Fmtlib = CASFORMATS 

Scope = Session 

Fmtsearch = YES 

Format = enginesize 

Format = horsepower 


NOTE: Request to LISTFORMAT completed for session MYSESS. 


图 4.21 CAS 格 式 逻 辑 库 的 属性 


CAS 会 话 mysess 中 包含 两 个 会 话 作 用 域 的 格式 逻辑 库 CASFORMATS2 和 CASFORMAT，CASFORMATS2 中 包含 格式 price，CASFORMAT 中 包含 格式 enginesize 和 horsepower。 


4 提升 格式 逻辑 库 


同 CAs 表 一 样 ， 格 式 罗 辑 库 可 以 是 全 局 范围 ， 对 所 有 的 CAS 会 话 可 用 ; 也 可 以 是 会 话 范围 ， 仅 对 当前 会 话 可 用 。 在 本 节 前 面 “ 加 载 CAs 格 式 逻 辑 库 到 CAs 会 话 ”的 主题 中 介绍 过 使 用 划 


的 CAS 语 句 加 载 格式 逻辑 库 时 ， 可 指定 PROMOTE 选 项 将 该 格式 逻辑 库 提升 为 全 局 作用 域 格式 逻辑 库 。 其 语法 也 已 经 给 出 ， 这 里 给 出 示例 代码 如 下 : 


荫 ADDFMTLIB 选 项 


cas mysess; 


caslib mypathcas datasource=(srctype="path") 
path="/opt/sas/data"; 


cas mysess addfmtlib fmtlibname=casformats table=enginesize caslib=mypathcas promote; 


此 外 ， 还 可 通过 带 PROMOTEFMTLIB 选 项 的 CAS 语 句 将 会 话 中 已 有 的 格式 逻辑 库 提升 为 全 局 格式 逻辑 库 。 其 基本 语法 如 下 : 


CAS CAS 会 话 名 PROMOTEFMTLIB FMTLIBNAME= 格 式 逻 辑 库 名 <REPLACE>; 


+ FMTLIBNAME= 指 定 要 提升 的 格式 逻辑 库 。 


" REPLACE 表 示 若 全 局 范围 内 存在 同名 格式 逻辑 库 ， 则 替换 该 同名 格式 逻辑 库 。 该 选项 为 可 选 ， 如 果 不 指定 该 选项 ， 则 当 全 局 范围 内 存在 同名 格式 逻辑 库 时 ， 


参考 如 下 代码 : 


此 语句 运行 会 出 错 。 


cas mysess; 


proc format library=work.formats casfmtlib="casformats"; 
value enginesize 
low - <2.7="Very economical" 


5.5 - <6.9=" Large" 
6.9 -~ high="Very large"; 


run; 


cas mysess promotefmtlib fmtlibname=casformats replace; 
cas mysess listformats; 


提交 代码 运行 ， 代 码 最 后 一 行 的 日 志 输出 如 图 4.22 所 示 。 可 以 看 出 ， 当 提升 格式 逻辑 库 casformats 时 ，CAs 会 话 中 同时 存在 两 个 格式 逻辑 库 ， 一 个 是 会 话 作 上 


域 ， 一 个 是 全 局 作用 


域 。 


cas mysess promotefmtlib fmtlibname=casformats replace; 
Request to PROMOTEFMTLIB CASFORMATS completed for session MYSESS. 
cas mysess listformats; 
Fmtlib = CASFORMATS 
Scope = Session 


Fmtsearch = YES 
Fmtlib = CASFORMATS 
Scope = Global 


Fmtsearch = 
Request to LISTFORMAT completed for session MYSESS. 


图 4.22 ”CAS 格式 逻辑 库 的 作用 域 属性 


5. 删 除 格式 逻辑 库 
可 使 用 带 DROPFMTLIB 选 项 的 CAS 语 句 删除 CAS 会 话 中 的 格式 逻辑 库 ， 其 基本 语法 如 下 : 


CAS CAS 会 话 名 DROPFMTLIB FMTLIBNAME= 格 式 逻 辑 库 名 <FMTSEARCHREMOVE>; 


“CAS 会 话 名 指定 要 删除 的 格式 逻辑 库 的 CAS 会 话 的 名 称 。 
- FMTLIBNMAE= 指 定 要 删除 的 格式 逻辑 库 。 


“ FMTSEARCHREMOVE 选 项 为 可 选项 ， 表 示 将 该 格式 逻辑 库 从 格式 搜索 列表 中 删除 。 默 认 不 使 用 该 选项 时 ， 该 格式 远 辑 库 不 会 从 格式 搜索 列表 中 删除 。 


参考 如 下 代码 : 


cas mysess; 
cas mysess addfmtlib fmtlibname=casformats path="/opt/sas/data/casformats"; 


cas mysess listformats; 
cas mysess dropfmtlib fmtlibname=casformats; 
cas mysess listformats; 


代码 运行 的 部 分 日 志 如 图 4.23 所 示 。 


69 cas mysess listformats; 
NOTE: Fmtlib = CASFORMATS 
Scope = Session 
Fmtsearch = YES 
Request to LISTFORMAT completed for session MYSESS. 


cas mysess dropfmtlib fmtlibname=casformats; 
Request to DROPFMTLIB CASFORMATS completed for session MYSESS. 
cas mysess listformats; 


没有 找到 格式 逻辑 库 。 
Request to LISTFORMAT completed for session MYSESS. 


4.23 CAS 格式 逻辑 库 删 除 后 调用 日 志 


可 以 看 出 ，CAS 会 话 mysess 的 格式 包括 CASFORMATS， 其 为 会 话 作用 域 (Scope=Session) ， 且 该 格式 在 格式 搜索 列表 中 (Fmtsearch=YES) 。 当 标注 代码 行 是 为 61 的 代码 删除 该 格式 逻辑 库 时 ， 
相同 的 代码 显示 当前 CAS 会 话 中 没有 任何 格式 逻辑 库 。 
要 删除 全 局 作用 域 格式 逻辑 库 ， 必 须 两 次 调用 该 语句 。 第 一 次 调用 该 语句 时 会 将 会 话 作 用 域 的 格式 逻辑 库 删 除 ， 第 二 次 调用 该 语句 时 会 删除 全 局 作用 域 的 格式 逻辑 库 。 


4.5.6 “CAs 格 式 逻 辑 库 搜索 列表 管理 


格式 时 ， 首 先 会 在 格式 逻辑 库 搜索 列表 中 进行 搜索 (参考 图 4.15) 。FORMAT 过 程 或 CAS 语 句 的 ADDFMTLIB 选 项 加 载 格式 逻辑 库 到 CAS 会 话 的 过 程 中 ， 都 会 将 该 格式 逻辑 库 列 


前 面 介绍 过 CAS 要 应 
表 加 入 该 会 话 的 格式 逻辑 库 搜索 列表 中 。 


1. 修 改 格式 逻辑 库 搜索 列表 


CAs 语 句 中 通过 FMTSEARCH= 指 定 或 修改 格式 逻辑 库 搜索 列表 。 其 基本 语法 如 下 : 


CAS CRAS 会 话 名 FMTSEARCH= (名 称 1 < 名 称 列表 >) <POSITION=APPEND | INSERT | REPLACE>; 


:CAS 会 话 名 指定 CAS 会 话 的 名 称 。 


“ FMTSEARCH= 指 定 要 修改 格式 逻辑 库 搜 索 列表 时 使 用 的 格式 逻辑 库 的 名 称 或 名 称 列表 。 


` POSITION= 为 APPEND 时 表示 将 指定 的 名 称 或 名 称 列表 加 入 到 格式 逻辑 库 搜索 列表 的 结尾 处 ， 为 INSERT 时 表示 将 FMTSEARCH 指 定 的 名 称 或 名 称 列表 加 入 到 格式 逻辑 库 搜索 列表 的 最 前 面 ; 为 
REPLACE 时 表示 使 用 指定 的 名 称 或 名 称 列 表 代替 格式 逻辑 库 搜索 列表 。 其 为 可 选项 ， 默 认 值 为 APPEND。 


在 SAS studio 中 提交 如 下 代码 : 


cas mysess; 


proc format library=work.formats casfmtlib="casformats"; 
value enginesize 
low - <2.7="Very economical" 


6.9 - high="Very large"; 
run; 


cas mysess listfmtsearch; 
cas mysess fmtsearch=(casformatsl casformats2) position=append; 
cas mysess listfmtsearch; 


最 后 三 行 代码 指定 的 日 志 如 图 4.24 所 示 。 从 “cas mysess listfmtsearch; ”语句 的 输出 可 以 看 出 ，CAS 会 话 mysess 中 的 格式 逻辑 库 搜索 列表 中 包含 格式 逻辑 库 casformats。 接 下 来 的 CAS 语 句 指定 将 
casformat1 和 casformat2 加 入 到 格式 逻辑 库 搜索 列表 的 后 面 。 第 二 条 “cas mysess listfmtsearch; ”语句 看 到 格式 逻辑 库 搜 索 列表 中 包含 格式 逻辑 库 casformats、casformat1 和 casformat2。 因 为 会 话 
mysess 中 并 未 加 载 格式 casformat1 和 casformat2， 所 以 其 Scope 值 为 “Not Found” 。 


71 cas mysess listfmtsearch; 
NOTE: FmtLibName = CASFORMATS 
Scope = Session 
NOTE: Request to LISTFMTSEARCH completed for session MYSESS. 
72 cas mysess fmtsearch=(casformats1 casformats2) position=append; 
NOTE: Request to FMTSEARCH completed for session MYSESS. 
73 cas mysess listfmtsearch; 


NOTE: FmtLibName = CASFORMATS 
Scope = Session 
NOTE: FmtLibName = CASFORMATS1 
Scope = Not Found 
NOTE: FmtLibName = CASFORMATS2 
Scope = Not Found 
NOTE: Request to LISTFMTSEARCH completed for session MYSESS. 


图 4.24 ”会话 中 CAS 格 式 逻辑 库 列 表 


2. 查 看 格式 逻辑 库 搜索 列表 的 格式 逻辑 库 名 称 


带 LISTFMTSEARCH 选 项 的 CAS 语 句 会 顺序 列 出 CAS 会 话 的 格式 逻辑 库 搜索 列表 中 的 每 个 格式 逻辑 库 名 称 及 其 作用 域 属性 。 其 基本 语法 如 下 : 


CAS CAS 会 话 名 LISTFMTSEARCH; 


网 


示例 代码 和 日 志 请 参考 本 节 的 “修改 格式 逻辑 库 搜索 列表 ”主题 及 


4.24。 


3. 删 除 格式 逻辑 库 搜索 列表 中 的 格式 逻辑 库 


在 CAS 语 句 中 使 用 DROPFMTLIB 选 项 删除 格式 逻辑 库 时 ， 使 用 MTSEARCHREMOVE 选 项 可 将 该 格式 逻辑 库 从 CAS 会 话 删除 的 同时 ， 将 其 名 称 从 会 话 的 格式 逻辑 库 搜索 列表 中 也 删除 掉 。 其 语法 在 
4.5.5 节 的 “删除 格式 逻辑 库 ” 主 题 中 已 经 介绍 过 ， 这 里 给 出 其 代码 示例 : 


cas mysess dropfmtlib fmtlibname=casformats fmtsearchremove; 


4 清除 格式 逻辑 库 搜索 列表 


清除 格式 逻辑 库 搜索 列表 的 基本 语法 如 下 : 


CAS CAS 会 话 名 FMTSEARCH CLEAR; 


示例 代码 为 : 


cas mysess fmtsearch clear; 


46 本章 小 结 


读者 可 在 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 用 》 一 书 的 第 一 篇 中 找到 如 何 利用 DATA 步 进行 数据 处 理 。 虽 然 该 书 主要 是 阐释 在 SAS 9 环境 中 的 数据 处 理 ， 但 在 SAs Viya 的 CAS 中 ， 大 部 分 操 
作 与 其 类 似 。 本 章 主要 描述 了 在 SAS Viya 的 CASs 中 数据 处 理 与 SAS 9 环境 中 的 数据 处 理 的 不 同 之 处 ， 具 体 包括 如 下 几 个 方面 。 


:CAS 的 多 线程 和 分 布 式 处 理 引入 的 数据 处 理 。 


:CAS 表 的 分 区 和 分 组 。 


“ 格式， 尤其 是 自 定 义 输出 格式 在 CAS 表 处 理 中 的 应 用 和 管理 。 


CAs 中 利用 ACTION 对 数据 的 处 理 ， 例 如 分 区 和 排序 、 应 用 格式 等 ， 不 在 本 书 的 当前 版 本 范围 之 内 ， 后 续 的 版 本 会 包含 这 些 内 容 。 


前 面 介绍 了 SAS Viya 中 数据 的 加 载 和 处 理 ， 本 章 将 在 此 基础 上 介绍 如 何在 SAS Viya 中 对 数据 进行 探索 和 展现 。SAS 9 平台 提供 了 很 多 过 程 步 来 图 形 
SGPLOT， 等 等 。SAS 并 没有 专门 为 Viya 平 台 开发 新 的 图 形 化 过 程 步 ， 也 就 是 说 SAS Viya 平 台 依然 会 沿用 SAS 9 平台 上 的 这 些 过 程 步 。 


Som SAS Viya 中 的 数据 探索 和 展现 


展现 和 探索 数据 ， 例 如 使 用 PROC PRINT 和 PROC 


S 


本 章 首先 将 介绍 SAS Viya 上 用 于 展现 和 探索 数据 的 图 形 类 型 及 相应 的 方法 。 然 后 ， 通 过 示例 向 读者 介绍 如 何在 SAS Viya 平 台 上 对 CAS 服 务 器 的 分 析 结果 进行 图 形 化 展现 。 在 图 形 化 展现 方面 ，SAS Viya 


使 


了 与 SAS 9 平台 上 几乎 相同 的 过 程 步 ， 因 此 本 书 不 会 对 这 些 过 程 步 的 语法 进行 详细 讲解 ， 对 这 部 分 内 容 不 是 很 熟悉 的 读者 可 以 参考 《深入 解析 SAS : 数据 处 理 、 分 析 优 化 与 商业 应 用 》 一 书 和 SAS 的 帮助 


文档 。 


5.1 


为 了 保证 整个 体系 的 完整 性 ， 本 章 将 对 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 用 》 一 书 中 没有 涉及 的 一 些 过 程 步 进 行 简单 介绍 。 


SAS Viya 展 现 数 据 的 方法 : 列表 


和 SAS 9 一 样 ，SAS Viya 对 数据 的 展现 有 两 种 形式 : 列表 和 图 形 。 本 节 和 5.2 节 将 分 别 介绍 这 两 种 展现 方式 的 代码 和 输出 。 


PRINT 过 程 是 用 于 输出 数据 内 容 的 最 简单 也 是 最 常用 的 过 程 ， 它 可 以 将 选择 的 观测 和 字段 以 简单 的 矩阵 表格 的 形式 输出 。 


PROC PRINT 的 最 简单 的 用 法 如 下 所 示 : 


cas mysess 1 cashost="brdvmXXX" casport=5570; 
libname caslibry cas; 


proc print data=caslibry.class; 
run; 


CLASS 是 CASs 引 擎 逻辑 库 CASLIBRY 中 的 表 。 本 章 的 示例 代码 中 会 使 用 名 为 CAsLIBRY 的 逻辑 库 引 用 CAS 内 存 中 的 数据 ， 之 后 的 示例 中 再 用 到 CASLIBRY 时 将 不 再 做 特别 说 明 。 这 段 代 码 输出 了 表 


CASLIBRY.CLASS 的 所 有 内 容 ， 如 图 5.1 所 示 。 


1| Amed |M | 14| 690| 1125 
Tz} Ace |F | 13| 565| 840 
3] Bawa |F | 13| 653| 980 
4| cm |F | | 628| 1025 
| remy [m | 1| 635| 1025 
6| James |M | 12| 573| 830 
jee |F | 12| 598| 845 
et |F | | 25| 125 
9| Jeffrey |M | 13] 625| 840 
| [u | | sao| 995 
ajio |F | n| 513| sos 
32 | sway |F | a| 643| s00 
| eee |r | | sea] 770 
|m |F | 15| 665| nzo 
- | | | 7 wo 
EC [is] erof nse 
OCON 


PROC PRINT 中 还 有 更 多 的 选项 和 语句 可 用 于 改变 列表 的 内 容 和 样式 。 


图 5.1 最 简单 的 PRINT 步 示例 


它 的 语法 形式 如 下 : 


PROC PRINT <DATA= 数 据 集 < (FIRSTOBS= 初 始 行 号 OBS= 结 束 行 号 ) >> 


RUN; 


<NOOBS> <OBS=' 观 测序 列 号 标签 '>; 

TITLE<1-10> ' 报 表 标题 '; 

FOOTNOTE<1-10> ' 报 表 脚 注 '; 

ID 变量 1 < 变量 2 变量 3 >; 

VAR 变 量 ] < 变量 2 变量 3 >; 

WHERE 表达 式 ; 

SUM 变 量 1 < 变量 2 变量 3 >; 

BY 变量 1 < 变量 2 变量 3 .. 

FORMAT 变 量 1 < 变量 2 > Thm < 变量 3 < 变量 4 AHRR >; 
LABEI 变 量 1=' 标 签 1， < 变量 2=' 标 签 2' >; 


PROC PRINT 语 句 中 ，DATA 选 项 指定 了 要 展示 的 数据 名 称 ， 贺 


展示 报表 的 观测 序列 号 ， 也 就 是 不 显示 图 5.1 中 最 左 侧 的 列 OBS。 当 需要 显示 观测 序列 号 时 ， 可 以 使 用 OBS 选项 指定 OBS 列 的 标签 。 


PROC PRINT 中 各 语句 的 含义 是 : 
WHERE 语句 用 于 过 滤 观 测 ;SUM 语 句 用 于 对 变量 求 和 ; 使 用 BY 语句 时 ， 
| 用 CAS 服 务 器 中 的 表 时 则 没有 这 个 要 求 ， 因 为 CAS 服 务 器 会 按照 BY 变量 


逻辑 库 引 


CASLIBRY.CLASS: 


展示 结果 将 以 所 指定 的 变量 分 组 ， 每 个 组 由 一 个 单独 的 表格 展示 ， 它 要 求 事先 对 数据 集 按照 BY 变量 


括号 中 的 FIRSTOBS 和 OBSs 用 于 指定 要 输出 的 观测 的 范围 。 不 使 用 DATA 选 项 时 ， 系 统 默 认输 出 最 新 创建 的 数据 集 。NOOBS 选 项 用 了 


F 取 消 


TITLE 和 FOOTNOTE 用 于 设置 标题 和 脚注 ，TITLE 和 FOOTNOTE 后 边 的 数字 代表 了 标题 和 脚注 的 级 别 ;，1D 语 句 用 于 取代 OBS 列 ;VAR 语 句 设置 了 需要 输出 的 变量 ; 


进行 排序 ， 但 是 当 使 用 CAs 引 擎 


自动 做 排序 ，FROMAT 和 LABEL 分 别 指定 了 输出 表格 中 变量 的 格式 和 标签 。 下 面 的 示例 将 


更 复杂 的 方法 


展示 表 


proc print data=caslibry.myclass; 


run; 


titlel "SAS Viya"; 

title2 "PROC PRINT 过 程 "; 

id name; 

var weight; 

where age>12; 

sum weight; 

by sex; 

label name=' 姓 名 ' weight=' 体 重 '; 


proc print data=caslibry.myclass (firstobs=2 obs=8); 


titlel "SAS Viya"; 
title2 "PROC PRINT 过 程 "; 
id name; 

var weight; 

where age>12; 

sum weight; 

by sex; 

label name=' 姓 名 ' weight=' 体 重 '; 


这 段 代码 的 输出 结果 如 图 5.2 所 示 。 


SAS Viya 


PROC PRINT 过 程 


图 5.2 复杂 的 PRINT 步 示例 


示例 中 使 用 了 两 个 PRINT 步 ， 第 二 个 PRINT 过 程 与 第 一 个 PRINT 过 程 的 唯一 区 别 是 使 用 了 FIRSTOBS 选 项 和 OBSs 选 项 限定 了 输出 观测 的 范围 。 由 于 这 里 使 用 的 是 CAs 引 警 逻 辑 库 ， 因 此 不 需要 首先 对 数据 
表 按照 SEX 变量 进行 排序 ， 从 图 5.2 中 可 以 看 出 ，FIRSTOBS 选 项 和 OBS 选项 并 不 是 限定 DATA 选 项 所 设置 的 数据 源 的 范围 ， 而 是 限定 了 过 滤 之 后 的 表 的 展示 范围 。 在 该 示例 中 ， 由 于 使 用 了 BY 语句 ， 因 此 过 
滤 之 后 的 表 是 由 两 个 表 组 成 的 。 


5.2 SAS Viya 展 现 数据 的 方法 : 图 形 


SAS Viya 将 使 用 ODS GRAPHICS 来 图 形 化 展现 和 探索 数据 。ODS GRAPHICS 包含 了 多 个 过 程 ， 这 些 过 程 的 语法 简单 易 用 ， 可 以 绘制 多 种 类 型 和 布局 的 图 形 ， 例 如 散 点 图 、 柱 状 图 、 条 形 图 、 箱 线 图 和 


散 点 图 矩阵 ， 等 等 。 而 且 图 中 也 可 以 设置 标题 、 脚 注 、 图 例 等 图 形 元 素 。 开 发 者 使 用 DDS GRAPHICS 不 仅 可 以 创建 统计 学 图 形 ， 还 可 以 创建 非 统计 学 的 商业 图 形 。 


SAS Viya 平 台 上 的 ODS GRAPHICS 主要 由 三 个 过 程 组 成 : SGPLOT、SGPNAEL 和 SGSCATTER。 它 们 都 运行 在 WORKSPACE SERVER 而 不 是 CAs 服 务 器 之 上 ， 这 就 意味 着 它们 必须 借助 于 SAs 的 CAS 引 
擎 逻辑 库 才 可 以 访问 CAS 服 务 器 上 的 数据 。 本 节 将 首先 介绍 这 三 个 过 程 ， 然 后 再 介绍 使 用 这 些 过 程 可 以 绘制 哪些 类 型 的 图 形 。 


5.21 “SGPLOT 


SGPLOT 用 于 创建 单个 图 形 或 图 表 。 单 个 的 图 形 可 以 由 多 个 类 型 的 图 形 硬 加 而 成 。 具 体 的 图 形 类 型 将 在 5.2.4 中 介绍 。SGPLOT 中 的 语句 可 以 分 成 两 类 ， 一 类 用 于 设置 图 形 的 属性 ， 例 如 色彩 、 符 号 标 
R BAS, 另 一 类 则 用 于 绘制 具体 类 型 的 图 形 。 


具体 的 语法 形式 和 主 


要 语句 如 下 : 


PROC SGPLOT DATA= 数 据 源 < 选项 http:/ /wuw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16482/0EBPS/Text/.. 
*/ 


/*STYLEATTRS 用 


于 设置 ee 例如 色彩 、 符 号 ,等 等 。 


STYLEATTRS </. 选项 http war- hzeöurse. com/resource/ readPook?path= /openresources/teach_ebook/uncompressed/16482/OEBPS/Text/. 
/*XAXIS 用 于 设置 x 轴 的 属 ie, f MA 坐标 值 的 范围 和 显示 方式 ,等 等 。*/ 
XAXIS 选项 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...; 

* 


/*X2AXIS 用 于 设置 x2 轴 的 属性 。*/ 
/* 与 X 轴 不 同 ,X2 轴 位 于 图 形 的 上 方 ， 具 体 请 参考 图 5.3。*/ 


X2AXIS 选项 http: //www.hzcourse.com/re: source/readBook?path= /openresources/teach_ebook/uncompressed/16482/OEBPS/Text/. 

/x*YRAXIS 用 于 设置 Y 轴 的 属性 ， 例 如 标签 、 坐 标 值 的 范围 和 显示 方式 ,等 等 。*/ 

YAXIS 选项 http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...; 
* 


/*Y2AXIS 用 于 设置 Y2 轴 的 属性 


/* 与 Y 轴 不 同 ,Y2 轴 位 于 图 形 的 右 侧 ， 有 具体 请 参考 图 5.3。*/ 


YAXIS 选项 htt] 
/*INSETHN FER 


://www.hzcourse. 人 ebook/uncompressed/16482/OEBPS/Text/.. 


形 中 添加 文字 以 显示 图 形 无 法 表达 的 信息 
INSET "字符 串 1" < 


<" 字 符 串 an us Pa //www.hzcourse. oe /ed /openresources/teach ebook/uncompressed/16482/OEBPS/Text/...> </ 选 项 http://www.hzcourse.com/resourc 


/*KEYLEGENG 用 于 设置 图 例 。 


KEYLEGEND <" 名 称 1" "名 称 A http: oe: hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...> </ 选 项 http://www. hzcourse.com/resour: 
/* 以 下 语句 用 于 绘制 各 种 类 型 的 图 形 。 
/*BAND 用 于 绘制 带 状 图 。*/ 


QUIT; 


BAND X= 变量 Y= 变量 LOWER= 值 | 变量 UPPER= 值 | 变量 
/*BLOCK 用 于 绘制 块 状 图 。*/ 

BLOCK X= 变量 BLOCK= 变 量 </ 选 项 >; 
/*BUBBLE 用 所 气泡 图 。 

BUBBLE X= 变量 
/*DENSITY 用 于 绘制 密度 图 。*/ 
DENSITY 变量 </ 选 项 >; 
/*DOT 用 于 绘制 点 图 。*/ 
DOT 变量 </ 选 项 .>; 
/*DROPLINE 用 于 从 [X,Y] 向 X 轴 或 Y 轴 绘制 垂 线 。 
DROPLINE X= 变量 Y= 变量 </ 选 项 >; 
/*DROPLINE/H J : 
ELLIPSE X 
/*FRINGE 用 于 
FRINGE 变量 ae 
/*GRADLEGEND 用 于 把 
GRADLEGEND <" 名 称 "> </ 选 项 >; 
/*HEATMAP 用 于 绘制 热 图 。*/ 
HEATMAP X= 变量 Y= 变量 </ 选 项 >” 
/*HIGHLOW 用 于 绘制 高 低 图 。*/ 


</ 选 项 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16482/0EBPS/Text/...>; 


司 的 数据 映射 为 不 同 的 颜色 。*/ 


HIGHLOW X= 变量 |1Y= 变 量 HIGH- 变 量 LOW- 变 量 </ 选 项 > 


/*HISTOGRAM 用 于 绘制 直方 图 。*/ 
HISTOGRAM 变量 </ 选 项 ..>; 
/*HLINE 和 VLINE 分 别 用 于 绘制 横 线 图 和 竖 线 图 。*/ 
HLINE 变量 </ 选 项 .>; 
VLINE 变量 </ 选 项 .>; 
Zi AM NH ILA ya 


/*HISTOGRAMH 惩罚 o */ 
PBSPLINE x- 变量 Y- 变 量 <an. OF 
/*POLYGON 用 于 绘制 多 边 形 。 

POLYGON x= 变 量 Y= 变量 et </ 选 项 ; a 
/x*REFLINE 用 于 绘制 垂直 或 水 平 的 参考 线 。 
REFLINE 变量 | 值 1 < 值 2 ..> </ 选 项 >; 
/*REG 用 于 绘制 回归 图 形 。*/ 

REG X= 变量 Y= 变量 </ 选 项 >; 

/*SCATTER 用 于 绘制 散 点 图 形 。*/ 

SCATTER X Y= 变量 SER Ee 
/*SERIES 用 ill FF. 
SERIES X= 变 量 Y= 变 量 EE . zi 
/*SPLINE 用 于 绘制 样 条 曲线 图 。 
SPLINE X= 变量 Y= 变量 Sam B 
/*STEP 用 于 绘制 步 阶 图 。*/ 

STEP X= 变量 Y= 变量 </ 选 项 >; 


/*SYMBOLCHAR 和 SYMBOLIMAGE 分 别 用 aris 图 形 定义 一 


/* 这 里 定义 的 标示 可 以 被 其 他 语句 引用 。 


个 标示 。 */ 


SYMBOLCHAR NAME= 标 示 符 CHAR=" 二 iat | 关键 字 </ 选 项 .>; 
SYMBOLIMAGE NAME= 标 示 符 IMAGE=" 文 件 路 径 ” </ 选 项 >; 


/*TEXT 用 于 在 [X,Y] 处 绘制 文本 。*/ 
TEXT X= 变量 Y= 变量 TEXT= 变 量 </ 选 项 >; 
/*HBAR 和 VBAR 分 别 用 于 绘制 横向 和 竖 向 的 条 形 图 。*/ 
HBAR 变量 </ 选 项 >; 
VBAR 变量 </ 选 项 >; 
/*HBOX 和 VBRAR 分 别 用 于 绘制 横向 和 竖 向 的 盒 形 图 。*/ 
HBOX 变量 </ 选 项 >; 
VBOX 变量 </ 选 项 >; 
/*VECTOR 用 于 绘制 向 量 图 。 

VECTOR X= 变量 Y= 变量 2 SF 
/*WATERFALL 用 于 绘制 瀑布 图 。 


WATERFALL CRTEGORY= 变 量 Noe </ 选 项 >; 


/*XAXISTABLE 用 于 沿 着 x 轴 绘 制 变量 的 值 。 
XAXISTABIE 变 量 < 变量 > </ 选项 >; 
/*YAXISTABLE 用 于 沿 着 Y 四 绘制 变量 的 值 。 
YAXISTABILF 变 量 < 变量 .…> “</ 选 项 ， Dh 


下 面 的 示例 代码 使 有 


[ 


了 两 个 SGPLOT 绘 制 了 两 幅 图 形 。 第 一 个 SGPLOT 在 单个 


图 形 中 同时 绘制 了 柱状 


图 和 密 


度 图 


， 测 试 数据 创建 于 CAS 引 擎 逻辑 库 CASLIBRY 中 。 第 二 


个 图 形 则 使 


X2 与 Y2 坐 标 绘制 了 瀑 


/* 创 


建 测试 数据 。*/ 


data caslibry.testdata; 


run; 


do cat=1 to 16; 
resp = ranuni(0) * 100-50; 


if (resp < 0) then sign = "negative"; 
else sign = "positive"; 
output; 

end; 


proc sgplot data=caslibry.testdata; 


run; 


PR 


inset "SGPLOT EXAMPLE #1"; 
histogram resp / binwidth=10; 
density resp; 

density resp / type=kernel; 


F*/ 


proc sgplot data=caslibry.testdata; 


waterfall category=cat response=resp / 


/* 设 置 瀑布 的 颜色 


colorgroup=sign initialbarattrs=(color=purple) 


finalbarattrs=(color=orange) 
initialbarvalue=50 stat=mean 

/* 每 条 瀑布 上 以 红色 显示 数值 。*/ 
datalabel 

datalabelattrs=(color=red) 
dataskin=gloss  /* 使 瀑布 带 立体 光泽 。*/ 
fill 

x2axis /* 使 用 Xx2 坐 
y2axis /* 使 用 
transparenc: 
x2axis labe. 
y2axis label 


示 CATEGORY 变 量 。*/ 
显示 RESPONSE 变 量 。*/ 


run; 


o */ 
签 。*/ 


输出 结果 如 图 5.3 所 示 。 
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图 5.3 SGPLOT 示 例 


5.2.2 SGPANEL 


SGPLANEL 用 于 创建 一 个 图 形 面 板 ， 图 形 面板 中 包含 单个 或 多 个 图 形 ， 这 些 图 形 是 按 分 类 变量 彼此 区 分 的 。 例 如 一 个 数据 集中 有 
这 时 候 就 可 以 用 SGPANEL 并 以 A 变量 为 分 类 变量 进行 展示 。 面 板 中 的 每 个 图 形 也 可 以 像 SGPLOT 一 样 由 多 个 类 型 的 图 形 硬 加 而 成 的 。 具 体 的 图 


SGPANEL 的 语法 规则 中 ， 大 部 分 语句 的 语义 和 用 法 都 和 SGPLOT 中 的 相同 ， 代 码 如 下 所 示 : 


Ape 
三 个 变量 


A、B 和 C， 如 果 我 们 想 观 察 各 个 A 变量 值 下 B 和 C 之 间 的 关系 ， 
形 类 型 将 在 5.2.4 节 中 介绍 。 


PROC SGPANEL DATA= 数 据 源 < 选项 .… 
/*PANELBY 用 FL Fe ich ea ee FE. 
PANELBY 变量 < 变量 > </ 选 项 
/sortianrmesh FCB, Gin RE, 符号 ,等 等 。 
STYLEATTRS </ 选 项 . 
/*COLAXISH 于 设置 各 mt. 
COLAXIS 选项 
7xRONRXTS 用 于 说 置 v 的 属性 。*/ 
ROWAXIS 选项 .…; 
/*INSET 用 于 在 图 形 中 添加 文字 。*/ 
INSET "字符 串 1" <" "字符 串 2" > </ 选 项 .>; 
/*KEYLEGENG 用 于 设置 图 例 。 
KEYLEGEND <" 名 称 1" aoe > </ 选 项 .>; 


/* 以 下 语句 用 于 绘制 各 利 ae 
/*BAND 用 于 绘制 带 状 图 
BAND x= 变 量 Y= 变量 iow UPPER= 值 | 变量 </ 选 项 >; 
/*BLOCK 用 于 绘制 块 状 
BLOCK X= 变量 BLOCK= 变量 /选项 > 
/x*BUBBLE 用 于 绘 囊 ay 

BUBBLE X= 变量 Y= 变量 SIZE- iA iF 
/*DENSITY 用 于 绘制 密度 
DENSITY 变量 </ 选 项 >; 
/*DOT 用 于 绘制 点 图 。*/ 


DOT 变量 </ 选 项 .>; 


/*DROPLINE 用 于 
DROPLINE X=% 
/*DROPLINEJH F 
ELLIPSE X= 变量 


/*FRINGE 用 于 绘制 条 纹 图 。*/ 
FRINGE 变量 </ 选 项 .>; 


,Y] 向 X 轴 或 Y 轴 绘制 垂 线 。*/ 


Y= 变量 </ 选 项 .>; 


/*GRADLEGEND 用 于 把 不 同 区 间 的 数据 映射 为 不 同 的 颜色 。*/ 
GRADLEGEND <" 名 称 "> </ 选 项 >; 


/*HEATMAP 用 于 绘制 热 图 。* 


HEATMAP X= 变量 Y= 变量 </ 选 项 n>; 


/*HIGHLOW 用 于 绘制 高 低 图 。 
HIGHLOW X= 变量 |Y= 变 量 Te- 变量 LOW= 变 量 </ 选 项 


/*HISTOGRAM 用 于 绘 和 


HISTOGRAM 变量 </ 选 项 >; 


直方 图 。*/ 


/x*HLINE 和 VLINE 分 别 用 于 绘制 横 线 图 和 竖 线 图 。*/ 


HLINE 变量 </ 选 项 
VLINE 变量 </ 选 项 . 
/*LOESS 用 于 绘制 局 部 


Ce 


We 


加 权 回 归 散 点 平滑 拟 合 图 。*/ 


LOESS Xx= 变 量 Y= 变量 </ 选 项 .>; 


/*NEEDLE 用 于 绘制 针 


NEEDLE X=- 变 量 Y= 变量 


/*HISTOGRAM 用 于 名 
PBSPLINE X= 变量 
/*POLYGON 用 于 绘 和 


POLYGON X= 变量 Y= 变量 ID= 变 量 Se > 
/*REFLINE 用 于 绘制 垂直 或 水 平 的 参考 线 。 
REFLINE 变量 | 值 1 < 值 2 .> </ 选 项 >; 
/*REG 用 于 绘制 回归 图 形 。*/ 
REG X= 变量 Y= 变量 </ 选 项 >; 
/*SCATTER 用 于 绘制 散 点 图 形 。*/ 
SCATTER X= 变量 Y= 变量 SAN OF 

图 。 


/*SERIES 用 于 绘制 序列 


SERIES X= 变量 Y= 变量 E > 
/*SPLINE 用 于 绘制 样 条 曲线 图 。 
SPLINE X= 变量 Y= 变量 E 人 
/*STEP 用 于 绘制 步 阶 图 。*/ 


STEP X= 变量 Y= 变量 


/*SYMBOLCHAR 和 SYMBOLIMAGE 分 别 用 ie 图 形 定义 一 


</ 选 项 .>; 


/* 这 里 定义 的 标示 可 以 被 其 他 语句 引用 。 


SYMBOLCHAR NAME= 标 示 符 CHAR=" 二 
SYMBOLIMAGE NAME= 标 示 符 TRG FFA </ 选 项 


/*TEXT 用 于 在 [X,Y] 处 绘制 文本 。 


TEXT X= 变量 Y= 变量 


/*HBAR 和 VBAR 分 别 用 于 
HBAR 变量 </ 选 项 >; 
VBAR 变量 </ 选 项 >; 


TEXT= 变 量 “Ces Wt 
绘制 横向 和 竖 向 的 条 形 图 。*/ 


/x*HBOX 和 VBRAR 分 别 用 于 绘制 横向 和 竖 向 的 盒 形 图 。*/ 
HBOX 变量 </ 选 项 >; 

VBOX 变量 </ 选 项 >; 

/*VECTOR 用 于 绘制 向 量 图 。 

VECTOR X= 变量 Y= 变量 eo >; 


/*COLAXISTABLEH F 
COLAXISTABLE 变量 
/*ROWAXISTABLEH F 


沿 着 X 轴 绘制 变量 的 值 。 
< 变量 .> </ 选项 .>; 
沿 着 Y 辆 绘制 变量 的 值 。*/ 


ROWAXISTABLE 变量 < 变量 .> </ 选 项 .>; 
QUIT; 


> 


个 标示 。 
Sst | 关 键 字 </ 选 项 .>; 


a} 


ai 


下 面 的 示例 中 ， 数 据 表 CASLIBRY.HEART 中 含有 抽样 人 群 的 各 项 身体 指标 ， 


不 同性 别 下 ，60 岁 以 上 人 群 的 体重 与 胆固醇 的 关系 ， 代 码 如 下 : 


每 条 观测 均 记录 了 一 个 人 身体 的 各 项 指标 ， 比 如 体重 


胆固醇 水 平 、 


性 别 ， 等 等 。 基 于 这 个 数据 ， 


可 以 使 


回 


回 


归 曲 线 来 探索 


proc sgpanel data= caslibry.heart (where=(AgeAtStart > 60)) 
panelby sex / novarname; 
loess x=weight y=cholesterol / clm; 


run; 


输出 结果 如 图 5.4 所 示 。 
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图 5.4 SGPANEL 示 例 


5.2.3 SGSCATTER 


SGSCATTER 用 于 创建 一 个 散 点 图 形 面板 ， 面 板 中 包含 多 个 变量 的 散 点 图 形 。 具 体 而 言 ，SGSCATTER 中 可 以 使 用 三 种 语句 分 别 创建 不 同类 型 的 散 点 图 形 面板 : PLOT、COMPARE 和 MATRIX。 它 的 语法 
格式 如 下 : 


PROC SGSCATTER DATA= 数 据 源 < 选项 . 
/*COMPARE 用 于 绘制 比较 A A E OA 
/* 当 有 多 个 变量 时 需要 使 用 括号 把 变量 括 起 来 。 
COMPARE X= 变量 | (变量 1 变量 2 ...) Y= 变量 | hl 变量 2 ...) 


</ 选 项 .. 

PATRIE TRIENNEN, SR TRE TEENAA */ 

MATRIX 变 量 1 变量 2 .， </ith 

A | Bel ae EAH Ham. 

/* 使 用 多 个 变量 时 要 使 用 括号 ea RARE. 

PLOT in ees (Y 变 量 1 Y 变 量 2 . eel X 变 量 2 .) . 
x 


QUIT; 


下 面 就 依次 用 示例 的 形式 介绍 一 下 COMPARE、MATRIX 和 PLOT 的 作用 。 


COMPARE 语 句 创建 的 图 形 面板 中 ， 各 图 形 之 间 可 共享 X 轴 或 Y 轴 。 


例如 我 们 想 观察 各 类 型 汽车 的 油耗 与 汽车 重量 、 引 警 尺寸 及 马力 之 间 的 关系 ， 代 码 如 下 : 


proc sgscatter data= caslibry.cars; 
matrix weight horsepower enginesize 
/ellipse=(type=mean) diagonal=(histogram kernel) ; 
run; 


上 述 代码 的 输出 图 如 图 5.5 所 示 。 
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图 5.5 SGSCATTER COMPARE F# 


MATRIXJ FRFE32— a SES, 


例如 我 们 想 要 观察 查 汽车 重量 、 马 力 还 有 引 敬 尺寸 三 个 变量 两 两 之 间 的 关系 ， 代 码 如 下 : 


proc sgscatter data= caslibry.cars; 
matrix weight horsepower enginesize 
/ellipse=(type=mean) diagonal=(histogram kernel) ; 
run; 


代码 中 的 DIAGONAL 设 置 了 在 对 角 线 位 置 显示 的 图 形 类 型 。 对 角 线 位 置 只 有 一 个 变量 ， 其 图 形 也 可 以 由 多 个 类 型 的 图 形 赤 加 而 成 。 


上 面 示例 代码 的 输出 结果 如 图 5.6 所 示 。 


PLOT 语 句 创建 的 图 形 面板 中 ， 各 图 形 之 间 相 互 独立 。 


例如 我 们 想 要 观察 各 类 型 汽车 的 油耗 与 汽车 重量 之 间 的 关系 ， 以 及 价格 与 马力 之 间 的 关系 ， 代 码 如 下 : 


proc sgscatter data= caslibry.cars; 
plot mpg_highway*weight msrp*horsepower / group=type; 
run; 


输出 结果 如 图 5.7 所 示 。 
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5.6 SGSCATTER MATRIX 示 例 
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5.7 SGSCATTER PLOT 示 例 


上 面 简单 介绍 了 ODS GRAPHICS 用 于 输出 图 形 的 三 种 过 程 。 这 些 过 程 决 定 了 图 形 的 布局 ， 过 程 中 的 语句 则 可 以 决定 显示 什么 类 型 的 
成 四 大 类 : 基本 图 形 、 拟 合 和 置信 图 形 、 分 布 图 形 、 分 类 图 形 。 


1. 基 本 图 形 


除非 特殊 说 明 ， 所 有 的 基本 | 


(1) 带 状 图 (BAND PLOT) 


记录 了 95% 置 信 度 之 下 体重 均值 的 下 界 和 上 界 : 


图 形 都 可 以 在 SGPLOT 和 SGPANEL 中 绘制 ， 但 下 面 的 示例 中 只 以 SGPLOT 为 例 。 这 些 基本 图 形 具体 如 下 。 


形 。 下 面 就 来 介绍 一 下 有 哪些 类 型 的 图 形 可 供 选 择 。 总 体 上 可 以 分 


带 状 图 中 带 (BAND) 的 上 界 和 下 界 是 由 LOWER 变 量 和 UPPER 变 量 来 决定 的 。 下 面 的 示例 代码 使 用 的 数据 源 CLASSFIT 是 对 一 个 班级 里 各 位 学 生 的 体重 预测 ， 变 量 LOWERMEAN 和 UPPERMEAN 分 别 


title "Weight Limits on the Y Axis"; 
proc sgplot data= caslibry.classfit; 
where age > 12; 
band x=name lower=lowermean upper=uppermean; 
run; 
title; 


输出 结果 如 图 5.8 所 示 。 
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(2) 块 状 图 (BLOCK PLOT) 


块 状 图 中 ， 块 变量 (BLOCK) 值 相同 的 列 颜色 相同 。 下 面 的 示例 代码 中 所 绘 的 图 形 是 由 两 个 图 形 赦 加 而 成 的 。 不 同年 龄 的 学 生 采 用 不 同 颜色 的 块 来 表示 ，SERIES 语 名 所 绘 的 序列 图 表示 了 学 生 的 体重 : 


proc sgplot data= caslibry.class; 
where age>13; 
block x=name block=age; 
series x=name y=weight / 
markers; 
run; 


输出 结果 如 图 5.9 所 示 。 
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(3) 气泡 图 (BUBBLE PLOT) 


气泡 图 使 用 气泡 的 大 小 来 表示 数值 变量 取 值 的 大 小 。 下 面 的 示例 代码 所 绘制 的 图 形 是 展示 班级 学 生 身高 、 体 重 和 年 龄 之 间 的 关系 : 


proc sgplot data= caslibry.class; 
bubble x=height y=weight size=age; 
run; 


输出 结果 如 图 5.10 所 示 。 
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图 5.10 ”气泡 图 


(4) 条 纹 图 (FRINGE PLOT) 


条 纹 图 展示 了 变量 的 各 个 取 值 在 坐标 轴 上 的 位 置 ， 其 通常 与 柱状 图 或 密度 图 一 起 使 用 。 例 如 在 下 面 的 示例 代码 中 ， 柱 状 图 展示 了 汽车 的 MPG 变 量 (英里 每 加 仑 ) 分 布 在 各 区 间 的 观测 的 个 数 ， 条 纹 图 


展示 了 各 区 间 内 MPG 取 值 的 具体 位 置 。 另 外 ， 条 纹 按 照 汽 车 产地 进行 了 分 组 ， 不 同 组 的 条 纹 颜 色 不 同 ， 条 纹 的 高 度 设置 为 1 英寸: 


三 | 
E 


proc sgplot data= caslibry.cars; 
histogram mpg_highway; 
fringe mpg_highway 
/ group=origin height=lin; 
run; 


代码 的 运行 结果 如 图 5.11 所 示 。 
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图 5.11 a 


(5) 热 图 (HEAT MAP) 


热 图 


以 点 的 “热度 ”来 表示 一 个 变量 组 合 出 现 的 频率 。 示 例 中 的 数据 表 CASLIBRY.HEART 中 的 每 条 观测 均 记录 了 一 个 人 身体 的 各 项 指标 ， 比 如 体 寻 
各 种 体重 和 胆固醇 组 合 下 的 人 数 分 布 (频率 ) 的 “热度 ”， 颜 色 越 红 表示 具有 相应 体重 和 胆固醇 含量 的 观测 数量 越 多 ， 也 就 是 人 越 多 : 


nan 


、 胆 国 醇 水 平 、 性 别 ， 等 等 。 下 面 的 示例 代码 是 展示 


proc sgplot data= caslibry.heart; 
heatmap x=weight y=cholesterol; 
run; 


代码 的 运行 结果 如 图 5.12 所 示 。 


(6) 高 低 图 (HIGH-LOW PLOT) 


高 低 图 
几 年 中 各 月 
起 始 位 置 和 


于 展示 在 某 一 变量 的 各 个 值 在 另 一 个 变量 取 每 一 个 不 同 值 时 的 分 布 情况 ， 从 而 可 以 观察 各 变量 之 间 的 关系 ， 以 及 变量 取 值 的 走势 。 下 面 的 示例 代码 中 ， 表 STOCKS 中 记录 了 多 家 公司 的 股票 在 
份 的 最 高 值 变量 HIGH) 、 最 低 值 变量 LOW) 和 最 终 值 (变量 CLOSE) 。 示 例 通过 WHERE 语句 选取 了 其 中 |BM 公 司 股票 价格 在 2005 年 中 每 个 月 的 最 高 值 、 最 低 值 和 最 终 值 ， 线 段 在 Y 轴 上 的 
长 短 由 选项 HIGH 和 选项 LOW 所 设置 的 变量 决定 ， 线 段 上 横向 突起 的 位 置 是 由 选项 CLOSE 所 设置 的 变量 值 来 决定 的 。 示 例 代码 将 选项 CLOSE 设置 为 股票 在 每 个 月 的 最 终 价格 : 
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图 5.12 热 图 


title "Stock Trend for IBM"; 
proc sgplot data= caslibry.stocks 
(where= (date >= "01jan2005"d 
and stock = "IBM")); 
highlow x=date high=high 
low=low / close=close; 


run; 
title; 


代码 的 运行 结果 如 图 5.13 所 示 。 
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图 5.13 SKA 


(7) 针 形 图 (NEEDLE PLOT) 


针 形 图 以 竖 线 的 形式 表示 数值 变量 的 大 小 。 开 发 者 可 以 在 针 形 图 中 设置 BASELINE 作 为 竖 线 的 开始 位 置 。 下 面 的 示例 代码 是 使 用 针 形 图 展示 IBM 公 司 在 2005 各 月 的 股票 价格 走势 。 对 数据 表 STOCKS 的 介 
绍 请 参考 上 文 高 低 图 中 的 示例 : 


title "Stock Trend for IBM"; 
proc sgplot data= caslibry.stocks 


(where=(date >= "01jan2005"d 
and stock = "IBM")); 
needle x=date y=close 
/ baseline=80; 
run; 


title; 
运行 结果 如 图 5.14 所 示 。 
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图 5.14 4b 


(8) 散 点 图 (SCATTER PLOT) 


散 点 图 中 ，X 变 量 的 值 和 Y 变 量 的 值 决 定 了 散 点 的 位 置 ， 从 点 的 分 布 可 以 观察 数据 的 分 布 状况 及 变量 之 间 的 关系 。 下 面 的 示例 代码 是 展示 一 个 班级 中 ， 学 生 身高 与 体重 组 合 的 分 布 ， 同 时 也 可 以 观察 体重 
与 身高 之 间 的 关系 : 


proc sgplot data= caslibry.class; 
scatter x=height y=weight; 
run; 


运行 结果 如 图 5.15 所 示 。 


(9) 序列 图 (SERIES PLOT) 


— 


序列 图 把 坐标 系 内 的 点 按 顺 序 逐 个 连接 起 来 ， 形 成 一 条 由 直线 组 成 的 “曲线 ”， 从 而 反映 出 变量 的 变化 趋势 。 下 面 的 示例 代码 是 使 用 曲线 展示 IBM 公 司 在 2002 之 后 的 股票 价格 走势 。 对 数据 表 STOCKS 
的 介绍 请 参考 上 文 高 低 图 中 的 示例 : 


proc sgplot data= caslibry.stocks 
(where=(date >= "01jan2002"d 
and stock = "IBM")); 

series x=date y=close; 

run; 
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运行 结果 如 图 5.16 所 示 。 
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5.16 序列 


(10) 样 条 曲线 图 (SPLINE PLOT) 


样 条 曲线 图 与 序列 图 相似 ， 区 别 是 样 条 曲线 图 使 用 二 次 Bezier 样 条 插值 对 曲线 做 了 平滑 。 下 面 的 示例 代码 是 使 用 样 条 曲线 来 展示 图 5.16 中 的 曲线 : 


run; 


运行 结果 如 图 5.17 所 示 。 
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5.17 样 条 曲线 


(11) 步 阶 图 (STEP PLOT) 


步 阶 图 与 序列 图 相似 ， 区 别 是 步 阶 图 只 通过 横 线 和 竖 线 的 方式 连接 相 邻 的 数据 点 。 下 面 的 示例 就 是 使 用 步 阶 图 的 方式 展示 了 IBM 公 司 在 2002 之 后 的 股票 价格 走势 ， 也 就 是 使 用 样 条 曲线 来 重 绘图 5.16 中 
的 曲线 : 


proc sgplot data= caslibry.stocks 
(where=(date >= "01jan2002"d 
and stock = "IBM")); 
step x=date y=close; 
run; 


运行 结果 如 图 5.18 所 示 。 
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5.18 步 阶 


(12) 文本 图 (TEXT PLOT) 


文本 图 与 气泡 图 有 些 相 似 ， 区 别 是 气泡 图 通过 气泡 的 大 小 来 表示 一 个 数值 标量 的 取 值 ， 而 文本 图 则 直接 显示 一 个 字符 变量 的 取 值 。 下 面 的 示例 就 是 通过 文本 图 显示 一 个 班级 内 学 生 身高 和 体重 的 关系 ， 
选项 X 和 选项 Y 分 别 指定 了 X 轴 与 Y 轴 绑 定 的 变量 ， 选 项 TEXT 设置 了 文本 框 所 要 显示 的 变量 ， 这 里 是 显示 每 个 学 生 的 姓名 : 


proc sgplot data= caslibry.class; 
where (age>13); 
text x=weight y=height text=name 
/outline backfill; 

run; 


运行 结果 如 图 5.19 所 示 。 
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图 5.19 文本 图 


(13) 向 量 图 (VECTOR PLOT) 


向 量 图 是 通过 使 


二 维 向 量 的 方式 展示 二 维 空间 内 的 各 个 数据 距离 同一 个 起 点 的 位 置 和 距离 。 下 面 的 示例 代码 就 是 通过 向 量 的 方式 展示 班级 中 各 位 女生 的 身高 和 体 且 


与 平均 身高 和 平均 体重 


的 关系 : 


xorigin=60 y 


运行 结果 如 图 5.20 所 示 。 
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5.20 ”向量 图 


2. 拟 合 和 置信 图 形 


(1) HAMARA (ELLIPSE PLOTS) 


ODS GRAPHICS 可 以 帮助 开发 者 绘制 二 维 空间 里 的 置信 椭圆。 其 假设 二 维 变 量 符合 双 变量 正 态 分 布 ， 可 绘制 两 种 类 型 的 椭圆 : 一 种 是 均值 置信 椭圆 ， 一 种 是 预测 置信 椭圆。 两 种 不 同类 型 的 椭圆 表达 的 
含义 不 同 。 例 如 设置 置信 度 为 95% 的 情况 下 ， 总 体 均值 出 现在 均值 置信 椭圆 范围 内 的 概率 是 959， 一 对 新 的 变量 值 出 现在 预测 置信 椭圆 范围 内 的 概率 也 是 959%。 


信 椭 圆 只 可 以 使 用 SGPLOT 过 程 进行 绘制 。 为 了 使 置信 椭圆 所 表达 的 信息 更 加 有 用 、 直 观 ， 一 般 将 它 与 其 他 图 形 一 起 绘制 ， 例 如 散 点 
型 的 置信 椭圆 ， 散 点 图 的 使 用 使 置信 椭圆 所 表达 的 信息 更 加 清楚 : 


IR] 


。 下面 的 示例 代码 是 基于 一 个 班级 学 生 的 样本 数据 绘制 两 种 类 


加 


proc sgplot data= caslibry.class; 
scatter x=height y=weight; 
ellipse x=height y=weight 
/type=predicted alpha=.2; 
ellipse x=height y=weight 
/type=mean alpha=.2; 

run; 


ALPAHA 为 0.2 时 ， 置 信 度 设置 为 80%， 最 终 图 形 如 图 5.21 所 示 。 
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图 5.21 置信 椭圆 图 


(2) 局 部 加 权 回归 散 点 平滑 拟 合 图 (LOESS PLOT) 


局 部 加 权 回 归 散 点 平滑 法 (LOCALLY WEIGHTED SCATTERPLOT SMOOTHING, 简称 LOWESS 或 LOESS) 用 于 查看 两 个 变量 之 间 关系 。 不 同 于 通常 的 线性 回归 ，LOWESS 在 样本 数据 的 各 个 子 集 上 拟 


合 多 项 式 回归 曲线 ， 最 终 连 接 成 一 条 完整 的 曲线 ， 从 而 可 以 观察 到 数据 在 局 部 中 展现 出 来 的 规律 和 趋势 。SAS 的 LOESS 图 是 由 一 个 二 维 变 量 的 散 点 图 和 一 个 LOESS 拟 合 曲线 组 成 的 ， 可 以 使 用 SGPLOT 过 程 或 
SGPLANEL 过 程 绘制 。 


下 面 的 示例 代码 是 使 用 LOESS 图 展示 了 欧洲 所 产 汽车 的 重量 与 油耗 之 间 的 关系 : 


proc sgplot data= caslibry.cars; 
where (origin = "Europe") 

loess x=weight y=mpg_highway; 
run; ~ 


输出 图 形 如 图 5.22 所 示 。 
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图 5.22 LOESSA 


(3) 惩罚 B 样 条 图 (PENALIZED B-SPLINE PLOT) 


惩罚 B 样 条 图 是 由 一 个 二 维 变量 的 散 点 图 和 一 个 B 样 条 曲线 组 成 的 。 样 条 曲线 (Spline Curves) 是 由 一 组 给 定 的 控制 点 得 到 的 一 条 曲线 ， 曲 线 的 大 致 形状 由 这 些 点 予以 控制 。B 样 条 是 样 条 曲线 的 一 种 特 
殊 的 表示 形式 。 所 谓 惩罚 B 样 条 是 指 在 计算 系数 时 使 用 了 惩罚 函数 。 


用 户 可 以 在 SGPLOT 或 SGPANEL 中 绘制 惩罚 B 样 条 。 下 面 的 示例 代码 是 使 用 SGPLOT 展 示 欧 洲 所 产 汽车 的 重量 与 油耗 之 间 的 关系 : 


proc sgplot data= caslibry.cars; 
where (origin = "Europe"); 
pbspline x=weight 
y=mpg_highway; 

run; i 


输出 图 形 如 图 5.23 所 示 。 
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(4) 回归 图 (REGRESSION PLOT) 


回归 图 是 由 一 个 二 维 变量 的 散 点 图 


下 面 的 示例 代码 是 使 用 两 种 类 型 的 回归 图 来 展示 欧洲 所 产 汽车 的 重量 与 油耗 之 间 的 关系 : 


和 一 个 线性 或 非 线性 回归 曲线 组 成 的 。SAS ODSGRAPHICS 支 持 三 种 类 型 的 回归 曲线 : 线性 、 二 次 和 三 次 。 


Penalized B-spline 


5.23 ”惩罚 B 样 条 图 


户 可 以 在 SGPLOT 或 SGPANEL 中 使 用 REG 语 句 绘制 回归 


proc sgplot data= caslibry.cars; 
where (origin = "Europe"); 
reg x=weight y=mpg_highway/degree=1 legendlabel="liner"; 


run; 
proc sgplot data= caslibry.cars; 


where (origin = "Europe"); 
reg x=weight y=mpg_highway/degree=3 legendlabel="cubic"; 


run; 


输出 图 形 如 图 5.24 所 示 。 
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和 三 次 回归 


图 5.24 ”线性 回归 


3 .分布 图 形 


分 布 图 形 是 指 用 于 描绘 数据 分 布 状况 的 图 形 ， 例 如 上 面条 纹 图 的 示例 代码 中 用 到 的 柱状 图 就 是 分 布 图 形 的 一 种 。 用 户 可 以 在 SGPLOT 或 SGPANEL 中 绘制 分 布 图 形 ， 下 面 的 示例 代码 只 使 用 SGPLOT 来 展 


(1) AKE (BOX PLOT) 


盒 形 图 用 于 反映 一 组 或 多 组 连续 型 定量 数据 分 布 的 中 心 位 置 和 散布 范围 ， 包 括 中 位 数 、 四 分 位 数 、 最 大 值 、 最 小 值 和 异常 值 (或 者 称 为 离 群 点 ) 。 盒 形 图 的 样式 和 含义 如 图 5.25 所 示 。 盒 子 的 长 度 就 是 
四 分 位 距 (IRQ) ， 它 等 于 上 四 分 位 (Q3) 与 下 四 分 位 〈Q1) 的 差 值 ， 异 常 值 被 定义 为 小 于 Q1-1.5*IRQ 或 大 于 Q3+1.5*IQR 的 值 。 


图 5.25 ”人 铭 形 图 的 含义 


下 面 的 示例 代码 是 以 盒 形 图 来 展示 来 自 不 同 产地 汽车 重量 的 数据 分 布 : 


proc sgplot data= caslibry.cars; 
vbox weight/group=origin; 
run; 


输出 结果 如 图 5.26 所 示 。 
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(2) 直方 图 (HISTOGRAM) 


直方 图 例 是 用 柱子 的 高 低 来 表示 各 数据 区 间或 数据 组 的 观测 数量 或 频数 。 用 户 可 以 在 代码 中 设置 柱子 的 起 始 位 置 和 每 个 数据 区 间 的 宽度 。 不 设置 时 ， 系 统 将 根据 数据 的 分 布 自动 设置 。 下 面 的 示例 代码 
是 使 用 直方 图 来 展示 各 个 身高 段 内 学 生 的 数量 ， 柱 子 的 起 始 位 置 和 宽度 是 由 系统 自动 设置 的 : 


proc sgplot data= caslibry.class; 
histogram height; 
run; 


输出 图 形 如 图 5.27 所 示 。 
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图 5.27 直方 图 


(3) 密度 图 (DENSITY PLOT) 


密度 图 用 于 绘制 数据 的 概率 密度 曲线 。 它 通常 与 直方 图 同时 使 用 ， 用 于 表示 数据 的 分 布 和 概率 密度 曲线 之 间 的 拟 合 程度 。SAS 的 密度 曲线 可 以 使 用 两 种 类 型 的 概率 密度 函数 : 正 态 分 布 和 核 密度 估计 。 
默认 情况 下 ， 系 统 将 根据 样本 数据 的 均值 和 标准 差 绘制 正 态 分 布 的 密度 曲线 。 


下 面 的 示例 代码 是 使 用 柱状 图 展示 班级 学 生 在 各 身高 段 内 的 数量 ， 然 后 基于 样本 数据 绘制 正 态 密度 曲线 和 核 密度 估计 曲线 : 


proc sgplot data= caslibry.class; 
histogram height; 

density height; 

density height/type=kernel; 
run; 


输出 图 形 如 图 5.28 所 示 。 
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图 5.28 密度 图 
4 分 类 图 形 


分 类 图 形 是 指 按 分 类 变量 统计 响应 变量 的 数据 特征 ， 并 将 这 些 统计 量 和 分 类 变量 一 起 用 图 形 表示 出 来 。 例 如 可 以 使 用 条 形 图 分 别 展示 男性 和 女性 的 平均 年 龄 。 下 面 介绍 的 四 种 分 布 图 中 ， 除 了 瀑布 图 只 
可 以 用 SGPLOT 绘 制 以 外 ， 其 他 的 都 可 以 在 SGPLOT 或 SGPANEL 中 绘制 ， 下 面 的 示例 代码 只 使 用 SGPLOT 来 展示 。 


(1) 条 形 图 (BAR CHART) 


条 形 图 使 用 条 形 的 长 短 来 表示 各 个 分 类 变量 下 响应 变量 的 统计 值 。 例 如 下 面 的 示例 代码 中 ， 我 们 查看 抽烟 对 于 人 类 寿命 的 影响 。 分 类 变量 是 SMOKING_STATUS， 响 应 变量 是 AGEDEATH， 我 们 关注 的 
是 不 同人 群 的 平均 寿命 : 


proc sgplot data=caslibry.heart; 
hbar smoking_status / 
response=ageatdeath 
stat=mean; 
run; 


输出 结果 如 图 5.29 所 示 。 
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图 5.29 条 形 图 


(2) 点 图 (DOT POLT) 


点 图 是 使 用 点 的 位 置 表 中 每 个 分 类 变量 下 响应 变量 的 统计 值 。 下 面 的 示例 是 使 用 点 图 来 重新 绘制 不 同人 群 (SMOKING_STATUS) 的 平均 寿命 (AGEDEATH 的 平均 数 ) 。 


proc sgplot data=caslibry.heart; 
dot smoking status 
response=ageatdeath 
stat=mean; 


输出 结果 如 图 5.30 所 示 。 
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图 5.30 点 


(3) 线 图 (LINE CHART) 


线 图 是 把 各 个 分 类 变量 上 的 相应 变量 的 统计 值 用 线段 连接 起 来 ， 进 而 表达 出 数据 的 变化 趋势 。 下 面 的 示例 代码 是 使 


VLINE 来 查看 一 个 班级 中 不 同年 龄 段 学 生 的 平均 身高 的 变化 趋势 : 
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proc sgplot data=caslbry.class; 
Vline age 
response=height 
stat=mean 
markers; 
run; 


代码 中 ，MARKERS 表 示 要 将 分 类 变量 上 响应 变量 的 值 使 用 圆圈 标注 出 来 ， 如 图 5.31 所 示 。 
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(4) 瀑布 图 (WATERFALL CHART) 


导致 的 MOS 电 容 损毁 的 个 数 。 


瀑布 图 中 ， 每 个 分 类 变量 对 应 的 瀑布 的 高 矮 反映 了 其 响应 的 相应 变量 的 大 小 。 在 下 面 的 示例 中 ， 数 据 表 CASLIBRY.FAILURE 记 录 了 一 周 5 天 的 工作 日 中 ， 每 天 由 不 同 原 因 
在 图 5.32 中 ， 分 类 变量 (CAUSE) 所 对 应 的 响应 变量 的 统计 值 (COUNT 的 均值 ) 决定 了 瀑布 的 高 矮 (或 者 大 小 ) ， 但 它 并 不 会 决定 瀑布 在 Y 坐 标 上 的 位 置 。 上 一 个 分 类 变量 瀑布 的 结束 位 置 就 是 下 一 个 分 类 
变量 瀑布 的 导致 损毁 的 平均 个 数 及 它们 与 总 个 数 对 比 的 大 小 。 


开始 位 置 。 图 中 的 FINAL 对 应 的 瀑布 表示 的 是 各 原因 下 平均 损毁 个 数 的 和 ， 其 他 瀑布 则 展示 由 于 不 同 原因 


proc sgplot data=sashelp.failure; 
waterfall category=cause 
response=count 
stat=mean; 


输出 结果 如 图 5.32 所 示 。 
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图 5.32 ”瀑布 图 


本 节 所 介绍 的 内 容 涵盖 了 SAS ODS GRAPHICS 下 各 种 类 型 的 图 形 ， 但 由 于 篇 幅 所 限 ， 并 没有 对 各 种 图 形 的 选项 和 语法 做 详细 的 介绍 ， 感 兴趣 的 读者 可 以 参阅 SAs 的 帮助 文档 。 


5.3 ”图 形 化 展现 CAS 服 务 器 的 分 析 结 果 


在 SAS Viya 平 台 上 ， 所 有 高 级 数据 分 析 都 是 在 CAS 服 务 器 上 完成 的 ， 其 结果 也 保存 在 CAS 内 存 中 。 图 形 化 展示 CAS 服 务 器 的 分 析 结 果 是 SAS Viya 平 台 上 常见 的 操作 。 有 两 种 方式 可 以 完成 这 一 操作 ， 具 
体 如 下 。 


“一些 分 析 过 程 在 运行 结束 之 后 可 以 自动 输出 图 形 到 用 户 界 面 。 


“ 更 广泛 的 ， 开 发 者 可 以 借助 5.2 节 所 介绍 ODS GRAPHICS 过 程 来 图 形 化 展示 CAS 服 务 器 中 的 数据 。 


对 于 第 一 种 方式 ， 用 户 需要 参考 相关 过 程 的 用 户 手册 来 判断 该 分 析 过 程 能 否 支 持 图 形 化 输出 。 本 节 将 主要 介绍 第 二 种 方法 ， 即 使 用 本 章 所 介绍 的 图 像 化 过 程 来 展现 分 析 结 果 。 


ODS GRAPHICS 过 程 运行 在 WORKSPACE SERVER 上 ， 因 此 一 个 数据 集 或 表 能 够 被 ODS GRAPHICS 图 像 化 展示 的 首要 前 提 是 该 数据 集 或 表 能 够 被 WORKSPACE SERVER 访问 。 在 代码 中 ，ODS 
GRAPHICS 过 程 可 以 借助 CAs 引 警 建立 的 逻辑 库 (使 用 LIBNAME 语 句 ) 来 把 CAS 内 存 中 的 数据 读 取 到 WORKSPACE SERVER 上 进行 图 形 化 展示 。 下 面 的 示例 中 使 用 的 也 都 是 这 种 方式 。 


5.3.1 示例 1: 图 形 化 展示 聚 类 分 析 中 误差 平方 和 的 下 降 过 程 


在 该 示例 中 ，KCLUS 过 程 用 于 对 数据 进行 聚 类 分 析 ，SGPLOT 过 程 用 于 对 分 析 结 果 进 行 图 形 化 展现 ， 其 中 SGPLOT 使 用 了 STEP 语 句 绘制 一 个 步 阶 图 形 。CAS3 引 擎 必 不 可 少 ， 其 用 于 读 取 CAS 内 存 中 的 数 
据 。CASUTIL 过 程 则 用 于 实现 数据 的 加 载 。 


示例 代码 如 下 : 


libname mycas cas; 


proc casutil; 


load data= caslibry.iris; 
quit; 


proc kclus data=mycas.iris outstat=mycas.centroids 
seed=12345 maxclusters=3; 


input sepallength sepalwidth petallength petalwidth 


/ level = interval; 
outputtables clustersum=clustersummary 
iterstats=iterationstatistics; 
run; 


title "Decreasing SSE Values"; 

proc sgplot data=mycas.iterationstatistics; 
step x=iterationnum y=iterationsse; 
xaxis label="Iterations"; 
yaxis type=log label="SSE Values"; 

run; 


在 KCLUS 过 程 的 输出 结果 中 ，ITERSTATS 选 项 所 设置 的 表 iterationstatistics 记 录 了 聚 类 算法 运行 时 的 迭代 过 程 ， 通 过 SGPLOT 过 程 可 以 


程 ， 具 体 过 程 如 图 5.33 所 示 。 
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5.3.2 ”示例 2: 图 形 化 展示 数据 的 统计 结果 


展示 算法 运行 过 程 中 误差 平方 和 (SSE) 随 着 迭代 次 数 的 下 降 过 
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图 5.33 RAPERRMEE 


该 示例 是 使 用 MDSUM MARY 过 程 对 数据 进行 描述 性 统计 ， 统 计 结 果 中 包含 样本 均值 、 样 本 方差 、 样 本 大 小 及 平方 和 ， 等 等 。SGPANEL 过 程 使 用 条 形 图 对 统计 结果 中 的 样本 均值 进行 了 展示 。 代 码 中 同 


样 也 用 到 了 CAs 引 警 来 读 取 MDSUM MARY 过 程 的 输出 结果 。 


示例 代码 如 下 : 


libname mycas cas; 


proc casutil; 
load data= caslibry.cars; 
quit; 


/* 按 origin+type 对 数据 进行 分 组 , 分析 不 同 产地 和 车 型 下 的 汽车 油耗 。*/ 


proc mdsummary data=mycas.cars; 

var mpg_highway; 

groupby origin type / out=mycas.mpghw_sum; 
run; 


title "Summarized Highway MPG"; 

proc sgpanel data=mycas.mpghw_sum; 
IS 胃 where 过 证 ? 兴 关 注 业 四 Sa 和 Usa 的 汽车 。 */ 
where origin in ("Asia" "USA"); 
panelby origin / uniscale=row; 
format _mean_ 2.; 
vbarparm category=type response= mean ; 
rowaxis label="Summary MPG Values"; 

run; 

title; 


输出 结果 如 图 5.34 所 示 。SGPANEL 生 成 的 图 形 面板 按 产地 进行 分 类 (PANELBY) ， 因 此 面板 中 包含 了 两 个 


形 。UNISCALE 的 值 包 含 三 种 : ROW、COLUMN 和 ALL。 设 置 UNISCALE 为 ROW 可 以 保 


证 面板 中 每 行 图 形 的 纵 轴 使 用 相同 的 比例 尺 ，COLUMN 则 保证 面板 中 每 列 图 形 的 横 轴 使 用 相同 的 比例 尺 。 该 选项 的 默认 值 为 ALL， 表 示 在 不 使 用 UNISCALE 时 ，SAS 将 默认 保证 面板 中 的 行 和 列 使 用 相同 的 
比例 尺 。 由 于 该 示例 中 的 ASIA 一 列 中 X 轴 上 的 值 与 USA 一 列 中 X 轴 上 的 值 并 不 相同 ， 因 此 使 用 UNISCALE= ROW 可 以 使 图 形 显得 更 加 简练 。 不 使 用 UNISCALE 选 项 时 ， 输 出 结果 如 图 5.35 所 示 。 
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图 5.34 SUMARRY 结 果 的 图 形 展示 图 
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图 5.35 PANELBY 不 使 用 UNISCALE 选 项 


54 本章 小 结 


本 章 首先 介绍 了 SAS Viya 上 用 于 数据 展现 的 方法 ， 包 括 列 表 和 各 种 类 型 的 图 形 。 最 后 通过 示例 介绍 了 如 何 对 CAS 有 
内 容 不 是 很 熟悉 的 读者 可 以 参考 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 用 》 和 SAS 的 帮助 文档 。 


肛 务 器 上 的 数据 进行 图 形 化 展示 。 本 章 没有 对 这 些 过 程 的 语法 做 详细 的 讲解 ， 对 这 部 分 


第 6 章 HISAS Viya 进 行 数据 分 析 


提供 先进 和 全 面 的 分 析 算 法 对 数据 进行 分 析 建 模 是 SAS Viya 的 核心 功能 之 一 。SAS Viya 基 于 分 布 式 和 多 线程 的 架构 ， 实 现 了 多 节点 扩展 、 多 线程 并 行 、 内 存 化 处 理 的 高 性 能 计算 方式 。 这 一 重要 特征 不 
但 使 得 SAS Viya 对 传统 分 析 方 法 的 应 用 更 加 高 效 ， 而 且 对 支持 人 工 智能 和 机 器 学 习 等 需要 大 计算 量 的 现代 分 析 和 学 习 算 法 也 提供 了 有 力 保障 。 本 章 将 首先 简单 介绍 SAS Viya 中 提供 的 关于 机 器 学 习 和 数据 挖 
掘 的 过 程 步 ， 以 及 运用 这 些 技术 进行 数据 挖掘 的 一 般 流程 ; 然后 ， 还 将 详细 介绍 如 何在 SAS Viya 中 进行 机 器 学 习 和 数据 挖 扬 ， 包 括 数 据 的 处 理 、 数 据 建 模 和 模型 的 评估 等 。 


6.1 SAS Viya 中 数据 挖 气 和 机 器 学 习 过 程 步 概述 


SAS Viya 提 供 了 包括 机 器 学 习 在 内 的 丰富 的 分 析 建 模 方法 ， 例 如 森林 和 梯度 提升 决策 树 、 神 经 网 络 、 支 持 向 量 机 ， 
器 学 习 之 前 ,数据 准备 和 处 理 是 必 不 可 少 的 步骤 ， 对 此 SAS Viya 提 供 了 进行 数据 抽样 、 数 据 探 索 、 数 据 降 维和 文本 数 


的 过 程 步 。 对 于 每 一 个 过 程 步 ， 都 有 相对 应 的 Action 来 实现 ， 这 就 方便 了 CASL 和 第 三 方 语言 对 SAS Viya 机 器 学 习 和 数据 挖掘 服务 的 调用 。 


以 及 传统 的 聚 类 分 析 、 主 成 分 分 析 、 回 归 分 析 、 决 策 树 ， 等 等 。 在 进行 数据 挖 握 和 机 
居 处 理 等 功能 的 过 程 步 。 同 时 ， 为 了 对 模型 进行 评估 ，SAS Viya 还 提供 了 进行 模型 评估 


数据 挖掘 领域 有 两 个 重要 的 类 别 ， 即 有 监督 分 析 (Supervised Analysis) 和 无 监督 分 析 (Unsupervised Analysis) 。 相 应 的 ， 机 器 学 习 也 可 以 分 为 有 监督 学 习 和 无 监督 学 习 两 个 大 的 类 别 。 


有 监督 分 析 一 般 涉 及 一 个 或 多 个 目标 变量 。 因 此 ， 有 监督 分 析 属 于 目标 导向 (Goal Directed) 型 分 析 。 比 如 信用 卡 违约 分 析 中 ， 客 户 被 分 为 未 违约 客户 和 违约 客户 两 种 。 建 模 之 后 ， 根 据 初 始 模型 的 结 
果 ， 结 合 历史 数据 ， 对 初始 模型 进行 调整 、 改 进 ， 从 而 得 到 新 的 模型 。 一 般 来 说 ， 这 个 过 程 不 是 一 次 性 的 ， 而 是 一 个 反复 的 过 程 。 


相反 ， 无 监督 分 析 往 往 没 有 明确 的 目标 变量 。 因 此 ， 无 监督 分 析 也 称 为 数据 驱动 分 析 (Data Driven) ， 比 如 聚 类 分 析 ， 在 分 析 之 前 不 知道 数据 将 会 分 成 多 少 个 类 别 。 在 某 些 情形 下 ， 甚 至 没有 分 析 结 果 
好 坏 的 评判 标准 。 


在 SAS Viya 中 ， 有 监督 机 器 学 习 的 相关 过 程 步 如 表 6.1 所 示 。 


表 6.1 有 监督 机 器 学 习 


过 程 步 名 称 过 程 步 描 述 

Proc FACTMAC 实现 了 因子 分 解 机 学 习 模 型 。 通 常用 来 进行 预测 模型 的 学 习 ， 例 如 某 
个 客户 对 某 一 产品 的 购买 意向 。 该 过 程 采 用 随机 梯度 下 降 ( Stochastic Gradient Descent, 
1 FACTMAC SGD) 算法 对 模型 的 参数 进行 估计 。 其 模型 的 一 般 形 式 为 : 

Hx) = w, + Sw + > 3 xÙ Vi Vir 
j=l j=l j'=j+l f=1 

随机 森林 模型 。 能 够 生成 称 为 “森林 ”的 模型 。“ 和 森林 ”实际 上 就 是 包含 多 个 决策 树 的 
模型 

梯度 提升 模型 。 梯 度 提升 模型 也 包含 多 个 决策 树 模型 。 其 中 的 决策 树 模型 是 通过 梯度 
学 习 算 法 生成 的 ， 而 不 是 通过 单纯 的 统计 算法 来 获得 
4 NNET 在 SAS Viya 中 训练 生成 一 个 多 层 感知 器 神经 网 络 

支持 向 量 机 的 实现 。PROC SVMACHINE 使 用 内 点 法 优化 技术 执行 SVM 算法 ， 并 可 以 
生成 用 于 评分 数据 的 SAS 代码 。PROC SVMACHINE 使 用 线性 和 多 项 式 内 核 来 进行 计算 。 
它 可 以 在 单个 机 器 或 多 台 机 器 的 多 个 线程 上 运行 多 个 线程 ， 并 且 可 以 加 载 数据 在 多 个 节 
点 并 行 执 行 计算 

Logistic 回归 模型 。SAS Viya 中 的 PROC LOGSELECT 默认 使 用 修改 之 后 的 牛顿 - 拉夫 
6 LOGSELECT | 逊 算法 ,而 SAS 9 中 的 PROC LOGISTIC 默认 使 用 Fisher 算法 。PROC LOGSELECT 提供 
比 PROC LOGISTIC 更 丰富 的 变量 选择 方法 ， 比 如 LASSO 方法 
7 NLMOD 非 线性 回归 模型 
线性 回归 模型 。PROC REGSELECT 可 以 在 模型 中 指定 使 用 分 类 变量 和 连续 变量 进行 回 
8 REGSELECT | 归 分 析 。REGSELECT 中 提供 了 丰富 的 模型 选择 方法 ， 其 中 包括 LASSO 和 LAR (Least 
Angle Regression) 方法 
9 TREESPLIT 在 VSAS Viya 中 ， 用 于 建立 分 类 决策 树 或 回归 决策 树 模型 
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对 于 无 监督 的 机 器 学 习 ，SAS Viya 提 供 的 过 程 步 如 表 6.2 所 示 。 


表 6.2 无 监督 机 器 学 习 


对 于 训练 生成 的 模型 如 何 进行 评估 ，SAs Viya 提 供 了 ASSESS 过 程 步 。 如 表 6.3 所 示 。 
表 6.3 ”模型 评估 过 程 步 


过 程 步 名 称 过 程 步 描述 


模型 评估 过 程 步 。 可 以 生成 绘制 LIFT，ROC 曲线 使 用 的 数据 


同时 ，SAS Viya 还 提供 了 数据 准备 的 过 程 步 进行 数据 抽样 、 数 据 探索 、 数 据 降 维和 文本 数据 处 理 等 ， 具 体内 容 如 表 6.4 所 示 。 


表 6.4 SAS Viya 中 数据 准备 过 程 步 


序号 | HEPER 过 程 步 描述 
1 Binning 过 程 步 实现 了 数据 挖掘 过 程 中 所 需要 的 数据 分 组 操作 

) 人 比如 最 大 值 、 最 小 值 、 均 值 、 缺 失 值 个 数 、 方 差 、 标 准 差 
3 用 于 数据 的 分 区 。 比 如 将 数据 分 成 训练 数据 、 验 证 数据 、 测 试 数据 

4 用 于 数据 缺失 值 的 处 理 ， 可 以 使 用 均值 、 众 数 或 者 指定 值 来 替换 缺失 值 

5 用 于 在 SAS Viya 中 进行 变量 的 缩减 

6 使 用 自然 语言 处 理 和 统计 方法 进行 文本 分 析 

7 对 文本 数据 进行 评分 


6.2 SAS Viya 中 数据 挖掘 的 一 般 流 程 


SAS Viya 中 数据 挖掘 的 过 程 与 SAS 9 中 的 过 程 大 致 相同 ， 可 以 分 为 如 下 几 个 步骤 。 


“ 业务 规划 
+ 数据 处 理 
“ 模型 创建 
+ 模型 部 署 和 结果 评估 
整体 流程 的 描述 如 图 6.1 所 示 。 
结果 评估 og 
模型 部 署 | 和 监控 
和 评估 | 模型 部 团 “sj (UL 
模型 部 署 _ 问题 识别 
模型 监控 解决 方案 开发 
结果 评估 
ame (\ SAS 
数据 准备 
®& 
| 时 
模型 创建 sz 数据 处 理 | : | 
模型 开发 数据 准备 
模型 验证 数据 转换 和 数据 探索 
选取 数据 转换 
数据 分 群 


6.1 SAS Viya 中 数据 挖掘 整体 流程 


SAS Viya 对 数据 探索 、 模 型 建立 、 模 型 评估 ， 使 用 了 全 新 的 过 程 步 和 Action 来 实现 。 本 章 将 详细 介绍 这 些 内 容 。 


6.3 ”确定 业务 问题 和 [数据 准备 


进行 数据 挖掘 的 第 一 步 ， 是 确定 需要 解决 的 业务 问题 。 解 决 什么 问题 、 首 先 要 解决 哪些 问题 、 在 什么 范围 内 解决 多 大 规模 的 问题 ， 都 是 在 数据 挖掘 初期 需要 考虑 的 。 合 理 定义 需要 解决 的 问题 是 一 个 商 


业 项 目 成 功 的 基础 。 


在 确定 了 商业 问题 之 后 ， 通 常 就 要 了 解 是 否 可 以 获取 到 相关 的 数据 。 现 有 的 数据 结构 如 何 、 是 否 具备 该 数据 、 当 前 的 数据 是 否 包含 了 足够 的 信息 ， 这 些 都 将 影响 问题 解决 的 效果 。 对 于 不 同 的 行业 ， 数 


据 的 时 间 窗 口 (观察 期 、 基 期 、 表 现 期 ) 其 具体 窗口 的 期 限 也 是 不 同 的 。 首 先 应 分 析 数 据 是 属于 哪个 时 间 窗 口 ， 进 而 决定 如 何 利用 不 同时 间 窗 口 的 数据 ， 如 何 选择 合适 的 建 模 时 点 。 


为 了 保持 延续 性 ， 本 章 将 继续 使 用 《深入 解析 SAS: 数据 处 理 、 分 析 优化 与 商业 应 用 》 一 书 中 第 18 章 的 示例 ， 假 设 要 解决 的 业务 问题 具体 如 下 。 


X 公 司 经 过 调查 发 现 : 在 A 地 区 ， 小 商品 市 场 发 达 ， 微 型 /小 型 商铺 众多 ， 这 些 商 铺 经 常会 对 短期 资金 有 和 需求。 但 是 传统 大 型 银行 的 贷款 业务 主要 面向 企业 用 户 ， 并 且 手 续 繁多 ， 微 型 /小 型 商铺 (多数 是 


以 家 庭 为 单位 经 营 ) 往往 很 难 从 大 型 银行 得 到 商业 贷款 ， 而 且 整个 贷款 申请 的 处 理 时 间 相 对 也 较 长 。 针 对 这 一 现状 ，X 公 司 开展 了 针对 上 述 个 人 商铺 或 小 型 商铺 的 贷款 业务 。 经 过 一 段 时 间 的 尝试 ， 该 项 业务 
从 回报 率 来 看 相对 较 高 ， 但 也 存在 一 些 问题 ， 主 要 问题 整理 如 下 。 


“ 申请 人 数 日 益 增多 。 义 公司 已 经 无 法 通过 人 工 处 理 的 方式 对 贷款 申请 进行 逐一 处 理 。 


“ 存量 贷款 中 不 良 贷款 的 比例 高 达 20%。 


在 已 经 确定 了 要 分 析 的 问题 ， 并 对 所 需要 的 数据 有 了 一 定 的 总 体 上 的 认识 之 后 ， 接 下 来 就 是 数据 准备 的 过 程 ， 这 一 过 程 主要 包括 以 下 几 个 步骤 。 


“ 创建 数据 挖掘 的 环境 : 创建 数据 挖 据 环 境 的 首要 工作 是 对 数据 源 进行 确定 。 在 确定 了 数据 源 之 后 ， 接 下 来 的 工作 就 是 考虑 如 何 访问 和 获取 这 些 数据 源 中 的 数据 。 同时， 还 需要 时 间 窗 口 能 够 分 为 观察 
期 、 基 期 和 表现 期 三 个 时 间 段 。 


“ 观察 并 验证 数据 : 这 一 步 需要 检查 数据 挖掘 所 要 用 到 的 所 有 数据 都 可 以 得 到 、 将 现 有 的 数据 与 目标 联系 起 来 考虑 并 确定 每 一 个 数据 是 否 都 是 相关 的 (没有 宛 余 ) 、 考 虑 简化 数据 的 复杂 性 还 应 该 考虑 
是 否 需要 提供 额外 的 数据 ， 诸 如 汇总 列 等 。 


“ 准备 数据 : 这 个 阶段 的 工作 是 对 数据 的 合理 性 做 出 判定 。 例 如 ， 数 值 是 否 在 合理 的 范围 之 内 。 假 设 数 据 集中 的 某 一 列 代表 客户 的 信用 记录 长 度 〈 单 位 : 年) ， 另 一 列 代表 客户 的 年 龄 ， 若 发 现 客户 的 
信用 记录 长 度 大 于 客户 的 年 龄 ， 那 么 就 表示 这 两 个 值 中 至 少 有 一 个 值 是 不 合理 的 。 由 于 数据 可 能 来 自 于 不 同 的 地 方 ， 多 个 数据 之 间 的 信息 可 能 会 重 又 ， 因 此 ， 要 对 数据 去 除 宛 余 。 在 数据 清理 工作 中 ， 还 要 
保证 数据 的 一 致 性 ， 这 包括 保证 变量 的 单位 前 后 是 一 致 的 、 变 量 的 意义 前 后 没有 改变 等 。 


假设 我 们 根据 要 解决 的 业务 问题 将 X 公 司 业务 系统 中 的 数据 进行 了 抽取 和 清洗 ， 得 到 了 发 放贷 款 的 历史 数据 mycas.smbl， 该 数据 共 包含 6000 条 观测 、17 个 变量 ， 具 体 变量 的 含义 分 别 如 下 。 


(ID: 经 过 处 理 后 客户 的 ID。 

- PROFITRATE: 资产 收益 率 〈 百 分 比 ) 。 

“BAD: 是 否 为 不 良 贷 款 (0: 否 、1: 是 ) 。 

+ REASON: 贷款 原因 /用 途 (0: 资金 周转 、1: 扩大 规模 、 缺 失 值 ) o 
“DELINQ: 信用 记录 中 拖欠 交易 的 次 数 。 

- DEBTINC: 店铺 资产 负债 比率 (百分比 ， 全 部 负债 总 额 除 以 全 部 资产 ) o 
“EDUCATION: 申请 人 学 历 (1: 高 中 以 下 、2: 大 学 、3: 研究 生 及 以 上 ) 。 
- YROPEN: 店铺 经 营 时 间 (单位 : 年 ) 。 

“REVENUE: 店铺 年 营业 额 (单位 : 元 ) 。 

- CREDITAGE: 申请 人 信用 记录 (单位: 年) 。 

“LOCAL: 是 否 为 本 地 户籍 (0: 否 、1: 是 ) 。 

“AGE: 申请 人 年 龄 。 

“RENT: 店铺 月 租金 (单位 : 元 ) 。 

: CREDITLEVEL: 申请 人 信用 等 级 (1: A+、2: A、3: B+, 4: B) o 

“ STOREAREA: 店铺 面积 (单位 : 平方 米 ) 。 

- NUMEMPLOYEE: 雇员 人 数 。 

-INDAREA: 所 属 行业 (1: 服务 业 、2: 零售 业 、3: 其 他 ) 


至 此 ， 针 对 X 公 司 的 现状 ， 我 们 确定 了 要 分 析 的 问题 及 所 需要 的 数据 ， 接 下 来 将 针对 数据 进行 后 续 的 分 析 工作 。 


6.4 数据 处 理 


经 过 前 面 的 步骤 ， 我 们 已 经 明确 了 待 分 析 的 问题 ， 确 定 了 数据 源 。 从 本 节 开始 ， 我 们 要 对 数据 本 身 进行 处 理 ， 直 至 数据 可 以 用 来 建 模 。 这 一 阶段 的 工作 主要 包括 以 下 几 个 方面 的 内 容 。 


+ 数据 抽样 


. 对 数据 进行 加 工 


在 上 述 几 个 方面 的 应 用 中 ，SAS Viya 中 都 有 对 应 的 过 程 步 或 Action 来 实现 。 下 面 我 们 就 来 看 一 下 SAS Viya 是 怎么 实现 这 么 内 容 的 。 


6.4.1 数据 抽样 


对 数据 进行 抽样 是 数据 分 析 和 挖掘 过 程 中 的 一 个 基本 数据 处 理 步骤 。 对 数据 处 理 的 目的 和 方法 也 各 不 相同 。 为 了 把 数据 分 为 建 模 时 需要 的 训练 数据 、 验 证 数据 和 测试 数据 ， 需 要 进行 数据 抽样 ; ATE 
观 考察 数据 的 基本 特征 ， 往 往 也 需要 对 海量 数据 进行 抽样 生成 小 部 分 样本 以 便于 列表 、 绘 图 等 处 理 。 对 于 一 些 基本 的 抽样 方法 ， 大 家 可 以 参照 《深入 解析 SAS: 数据 处 理 、 分 析 优 化 与 商业 应 用 》 一 书 中 第 
18 章 的 相关 内 容 。 这 里 只 是 简单 介绍 一 下 “过 抽样 ”。 在 实际 分 析 工 作 中 ， 我 们 会 遇 到 不 均衡 数据 ， 例 如 如 下 的 情况 。 


“ 在 欺诈 交易 数据 集 分 类 问题 中 数据 集 是 不 平衡 的 。 该 交易 的 绝 大 部 分 都 属于 “不 是 诈骗 ”类 ， 只 有 极 少 数 会 在 “ 坎 诈 ”级 。 


“ 另 一 个 例子 是 客户 流失 的 数据 集 ， 其 中 客户 绝 大 多 数 都 会 保持 服务 (“ 无 流失 ”级 ) ， 只 有 一 小 部 分 的 顾客 会 取消 其 认购 (“流失 ”级 ) 。 
过 抽样 技术 ， 来 保证 我 们 用 于 建 模 的 数据 中 包含 足够 的 少数 类 数据 或 稀有 事件 数据 。SAS Viya 在 


不 均衡 数据 中 的 少数 类 数据 所 包含 的 数据 量 很 有 限 ， 但 其 中 隐 含 的 信息 很 重要 ， 这 时 ， 我 们 就 需要 采 
PROC PARTITION 中 提供 了 过 采样 的 数据 抽样 的 选项 ， 具 体 请 参考 6.4.3 节 对 PROC PARTITION 的 介绍 。 


6.4.2 ”数据 探索 


居 有 一 个 “整体 ”的 认识 ， 例 如 有 多 少 个 观测 、 每 个 观测 有 多 少 个 变量 ， 以 及 每 个 变量 的 取 值 特征 等 。 此 外 ， 还 可 以 结合 变量 的 汇总 统计 信息 对 每 个 变量 的 分 布 进 


若 想 要 对 数据 进行 探索 ， 首 先 要 对 数 拉 
行 分 析 。 通 过 数据 探索 可 以 了 解 变量 取 值 变化 的 趋势 、 确 定数 据 中 异常 的 观测 。 此 外 ， 还 可 以 借助 于 其 他 统计 方法 ， 如 变量 之 间 的 关联 性 分 析 和 其 他 方法 等 ， 来 实现 对 数据 的 初步 分 析 。 


1. 从 熟悉 数据 集结 构 本 身 开 始 


SAS Viya 可 以 利用 PROC CASUTIL 中 提供 的 contents 语 句 来 查看 数据 的 基本 信息 。 


例 1: 加 载 本 地 数据 到 CAs 服 务 器 ， 并 查看 已 加 载 数据 的 基本 信息 。 


cas casauto; 
caslib all assign; 


/* 加 载 本 地 数据 */ 
libname datasm "/path/to/local/data"; 
proc casutil; 
load data=datasm.smbl replace; 
contents casdata="smb1"; 


quit; 


居 的 行 数 为 6000， 以 及 每 一 列 的 数据 类 型 等 信息 。 


运行 上 述 代码 ， 将 本 地 的 数据 集 加 载 到 CAs 服 务 器 中 ， 数 据 的 详细 信息 结果 如 图 6.2 所 示 。 可 以 看 到 数 : 


The CASUTIL Procedure 


CAS i CASUSER(sasdemo) 的 去 信息 


图 6.2 ”数据 集 mycas.smbl 的 属性 


居 集 变量 中 ， 除 了 ID 变量 之 外 ， 其 余 变 量 的 角色 与 类 型 如 表 6.5 所 示 。 


然后 ， 可 以 通过 查看 数据 集 ， 确 定 其 中 每 个 变量 的 角色 与 具体 类 型 。 在 数 拉 
表 6.5 数据 集 mycas.smbl 中 变量 的 角色 与 类 型 分 析 


编号 类 型 


2 是 否 为 不 良 贷款 目标 变量 0-1 变量 
3 申请 人 信用 等 级 输入 变量 有 序 变量 
4 申请 人 信用 记录 输入 变量 连续 变量 
5 信用 记录 中 拖欠 交易 的 次 数 输入 变量 连续 变量 
6 a a MAR 连续 变量 
9 azan 0-1 变量 
( 续 ) 

编号 类 型 
11 连续 变量 
12 定 类 变量 
13 连续 变量 
14 连续 变量 
15 roe we 变 连续 变量 

16 店铺 经 营 时 间 变 连续 变量 


在 知道 了 数据 的 基本 信息 之 后 ， 我 们 还 需要 了 解数 据 更 详细 的 信息 。 比 如 ， 希 望 知道 哪些 变量 是 连续 变量 ， 哪 些 变量 是 离散 变量 。 对 于 离散 变量 ， 我 们 希望 知道 其 不 同 取 值 的 个 数 和 所 占 比例 。 对 于 连 
续 变 量 ， 我 们 希望 知道 其 集中 趋势 、 离 散 程 度 及 分 布 情况 ， 比 如 最 大 值 、 最 小 值 、 均 值 、 标 准 差 等 统计 信息 。 


2. 通 过 汇总 信息 对 数据 进行 基本 了 解 


SAS Viya 提 供 了 多 种 方法 来 获取 上 述 信息 ， 例 如 过 程 步 5;UMMARY 等 。 这 里 简单 介绍 一 个 新 的 过 程 步 PROC CARDINALITY, PROC CARDINALITY 主 要 用 于 计算 数据 中 每 个 变量 包含 不 同 取 值 的 个 数 ， 
即 cardinality， 在 这 里 我 们 称 之 为 变量 的 势 。 其 处 理 能 力 ， 尤 其 是 对 大 数据 量 进行 计算 时 ， 相 对 其 他 方法 更 加 高 效 迅捷 。PROC CARDINALITY 的 基本 语法 为 : 


PROC so aad DATA= CAS 数 据 集 OUTCARD=CAS 数 据 集 < 选项 >; 


os C /选项 > ; 
RUN: 


其 中 ， 各 选项 含义 具体 如 下 。 
+ DATA 选 项 指定 了 将 要 进行 基数 计算 的 CAS 数 据 集 。 
"OUTCARD 选 项 指定 了 用 于 存储 变量 的 基数 和 汇总 信息 的 CAS 数 据 集 。 还 可 以 使 用 OUTDETAILS 选 项 来 指定 输出 详细 信息 的 CAS 数 据 集 ， 该 选项 不 是 必需 的 。 


- FREQ 语 和 句 中 的 变量 用 于 指定 数据 集中 包含 频率 的 变量 。PROC CARDINALITY 使 用 该 变量 的 值 f 作 为 观测 出 现 的 频率 。 如 果 f 不 是 整数 ， 则 取 整 。 如 果 f 小 于 1 或 缺失 ， 则 在 分 析 中 不 使 用 观察 值 。 当 
FREQ 语 句 没有 指定 时 ， 每 个 观测 默认 出 现 的 频率 为 1。 


- PROC CADINALITY 语 句 还 可 以 通过 MAXLEVEILS 选 项 来 指定 输出 变量 不 同 取 值 ( 势 ) 的 最 大 数 。 假 设 某 个 变量 共有 15 个 不 同 的 取 值 ( 即 该 变量 的 势 为 15) ， 如 果 设 定 了 MAXLEVELS 选 项 为 10， 则 
该 变量 有 5 个 不 同 取 值 的 信息 不 会 输出 到 OUTCARD 或 OUTDETAILS 指 定 的 结果 集中 。 具 体 输出 的 不 同 取 值 信息 顺序 可 以 使 用 ORDER 选项 按照 变量 的 取 值 或 格式 化 之 后 变量 的 取 值 来 指定 ， 语 法 为 
ORDER=ASC|IDESC|ASCFEMIDESCFMT， 其 中 ASCFM 和 DESCEMT 将 按照 格式 化 之 后 变量 的 值 进行 排序 。 默 认 选 项 是 ORDER=ASC。 


“VAR 语句 指定 需要 计算 势 的 变量 。 在 运行 PROC CADINALITY 的 时 候 ， 可 以 选择 部 分 变量 而 不 是 对 所 有 变量 进行 计算 ， 并 且 可 以 使 用 ORDER 选项 来 制定 不 同 变量 的 排序 顺序 。 可 以 多 次 使 用 VAR 语 句 
对 不 同 的 变量 指定 不 同 的 排序 ， 但 每 个 变量 只 能 使 用 一 次 。ORDER 选 项 的 使 用 语法 和 PROC CADINALITY 语 名 中 的 相同 。 如 果 不 在 VAR 语 句 中 指定 ORDER 选项 ， 则 默认 使 用 PROC CADINALITY 语 和 句 中 的 
ORDER 选项 。 


例 2: 数据 mycas.smbl 进 行 基数 计算 。 


PROC CARDINALITY data=mycas.smbl outcard=mycas.card 
outdetails=mycas.details maxlevels=10 ; 
RUN; 


在 上 述 代码 中 ， 选 项 data 指 定 了 将 要 进行 统计 的 数据 mycas.smbl， 输 出 的 汇总 结果 存放 在 mycas.card 中 ， 而 详细 的 汇总 结果 则 在 mycas.details 中 。 上 述 代 码 指定 了 maxlevels 选 项 为 10， 对 数据 的 频 
数 超过 10 的 变量 ， 将 有 部 分 频数 不 会 输出 。 下 面 的 结果 解释 中 将 有 进一步 的 描述 。 


运行 上 述 代码 ， 默 认 的 输出 结果 是 PROC CARDINALITY 对 数据 的 描述 ， 总 共有 26 列 。 如 果 不 想 查看 全 部 26 列 的 运行 结果 ， 也 可 以 打开 输出 数据 集 mycas.card， 选 择 希 望 查看 的 数据 列 。 如 图 6.3 所 示 进 
行列 的 选择 。 


视图 : | 列 名 ~|REOE|E 


全 选 

4 _VARNAME_ 
@ _FMTWIDTH_ 
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 _RLEVEL_ 
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图 6.3 ”选择 PROC CARDINALITY i447 44 BSI) 


在 进行 选择 列 之 前 ， 先 看 一 人 PROC CARDINALITY 运 行 结果 中 所 展示 的 信息 内 容 ， 表 6.6 中 列 出 了 部 分 列 的 信息 ， 其 他 未 列 出 PROC CARDINALITY 运 行 结果 的 ， 请 参考 Viya 帮 助 文档 。 


表 6.6 PROC CARDINALITY 输 出 内 容 


对 
ajo 
a 
at 
W} 
Hit 
BE 


已 经 显示 的 分 类 数 的 百分比 。 比 如 该 变量 总 共有 20 个 分 类 ， 结 果 集 中 


10 VISIBLE 一 、 
一 一 显示 了 10 个， 则 该 列 的 值 为 50% 


We 
2 数据 类 型 ，N 表示 数值 型 ，C 表示 字符 型 
3 推荐 的 用 于 数据 分 析 的 类 型 ， 比 如 Interval 、Class 或 ID 
1 i 
js 是 否 还 有 未 显示 的 数据 取 值 。 比 如 有 些 变量 总 共有 20 个 不 同 的 取 值 ， 
5 _MORE CARDINALITY 过 程 步 运行 时 设置 MAXLEVELS 参数 为 10， 在 结果 表 
中 只 显示 10 个 不 同 的 取 值 ， 则 该 列 的 值 为 Y， 否 则 该 列 的 值 为 N 
6 显示 数据 不 同 取 值 的 个 数 
7 E 
8 参与 频数 统计 的 观测 数 
9 含有 缺失 值 的 观测 数 


MIN , MAX , MEAN , = 
11 3 E 最 小 值 、 最 、 均 值 、 标 准 差 
_STEDEV 最 小 值 、 最 大 值 、 均 值 、 标 准 差 
12 _SKEWNESS ， KURTOSIS | 偏 度 、 峰 度 


13 _MFREQ_ 最 大 频 度 数 

14 _MFREQFOUNDLEVEL _ 是 否 已 经 在 结果 表 中 列 出 了 最 大 频 度 数 
15 _MFREQNUM 具有 最 大 频 度数 的 数值 型 变量 值 

16 _MFREQCHR_ 具有 最 大 频 度数 的 字符 型 变量 


我 们 选择 展示 列 VARNAME 、_TYPE 、_RLEVEL 、_NMISS 、_MORE 、_CARDINALITY 、_NOBS 、_VISIBLE_， 展 示 的 内 容 如 图 6.4 所 示 。 


PROFITRATE 
BAD 

DELINQ 
DEBTINC 
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YROPEN 
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CREDITAGE 
AGE 
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REASON 
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INTERVAL 
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图 6.4 PROC CARDINALITY i4474 $ 


在 上 面 的 结果 中 ， 在 _TYPE_ 列 中 ， 虽 然 很 多 列 的 类 型 都 是 N， 但 是 建议 将 不 同 的 变量 作为 INTERVAL 或 CLASS 类 型 用 于 数据 分 析 。 在 _NMISS 列 中 ， 可 以 看 到 变量 DELINQ、DEBTINC、REVENUE、 
CREDITAGE、AGE 和 REASON 含 有 缺失 值 的 行 数 。 大 部 分 的 数值 型 的 变量 并 没有 列 出 全 部 的 频数 ， 因 为 _VISIBLE 列 的 值 小 于 100%。 同 时 还 可 以 看 到 CLASS 类 型 的 变量 ， 比 如 BAD、EDUCATION、 
CREDITLEVEL、NUMEMPLOYEE 和 INDAREA， 在 _VISIBLE 列 其 值 为 100%， 同 时 在 列 _CARDINALITY _ 中 已 经 列 出 了 不 同 取 值 的 个 数 。 


为 了 更 详细 地 查看 分 类 变量 的 值 ， 打 开 mycas.details 表 ， 如 图 6.5 所 示 。 
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图 6.5 PROC CARDINALITY 详 细 运 行 结果 


33.1 
0.0166666667 
0.0166666667 
0.0166666667 
0.0166666667 
0.0166666667 
0.0166666667 
0.0166666667 
0.0166666667 
0.0166666667 

66.75 
80.083333333 
19.916666667 


0.0007366058 
0.0009244206 
0.0011483835 
0.0013477021 
0.0013519652 
0.0020271051 
0.0020556722 
0.002461162 
0.002463985 
0.002463985 
0 
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在 上 面 的 结果 中 ， 我 们 可 以 看 到 PROFITRATE 变 量 取 值 为 0 的 观测 有 1986 行 ， 总 占 比 为 33.1%。 同 时 该 变量 不 同 取 值 的 个 数 超过 了 10 个 ， 未 显示 的 值 其 INDEX 为 “.”。 对 于 分 类 变量 BAD， 其 值 为 0 和 
。 其 中 有 4805 行 观测 的 BAD 变 量 值 为 0，1195 行 的 值 为 1。 


在 表 mycas.details 中 ， 还 可 以 看 到 其 他 分 类 变量 的 值 及 不 同 取 值 所 占 的 百分比 。 对 于 这 些 离散 的 变量 ， 可 以 利用 mycas.details 中 的 数据 查看 其 不 同 取 值 的 频数 分 布 图 ， 代 码 如 下 。 


例 3: 调用 自 定义 宏 FREQBAR 查 看 离散 变量 的 频数 分 布 。 


macro freqbar (Varname) ; 
data sp; 
set mycas.details( where=(_varname_= "&varname") ) ; 
label _cfmt_= &varname; 
_cfmt =left( cfmt ); 
run; 
title "变量 evarname 的 分 布 "; 
proc sgplot data=sp; 
vbar cfmt / freq= freq ; 
run; 
smend; 


sfreqbar 
sfreqbar 
sfreqbar 
sfreqbar 
sfreqbar 
sfreqbar 


BAD) ; 

LOCAL) ; 
CREDITLEVEL) ; 
INDAREA) ; 
REASON) ; 
EDUCATION) ; 


上 述 程序 的 运行 结果 如 图 6.6 所 示 。 


1 0 1 
变量 BAD 分 布 变量 LOCAL 分 布 


1 


0 1 
变量 REASON 分 布 


图 6.6 ”离散 变量 的 频数 分 布 


对 于 连续 变量 ， 在 PROC CADINALITY 运 行 结果 mycas.card 表 中 ， 可 以 看 到 其 最 大 值 、 最 小 值 、 均 值 、 峰 度 、 数 信和 最 大 频 度 和 最 大 频 度 数 等 信息 ， 如 图 


2 3 
变量 EDUCATION 分 布 


2 3 4 
变量 CREDITLEVEL 分 布 变量 INDAREA 分 布 


6.7 所 示 。 
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对 于 连续 变量 ， 


CREDITAGE 
DELINQ 
DEBTINC 
PROFITRATE 
RENT 
REVENUE 
STOREAREA 
YROPEN 


-STDDEV_ 
9.6291760413 
6.6094526921 

1.32386979 
8.6024870401 
0.7109744992 

13012.05692 
63063.191665 
18.221327287 
4.9526799991 


还 可 以 运行 Action SIMPLE.SUMMARY 来 获取 统计 信息 ，CASL 代 码 如 下 。 


_SKEWNESS_ 
0.1314497918 
0.9988528974 
2.7817887958 
2.809177081 
1.2000821851 
1.0460621007 
2.2129008754 
5.5585880025 
-0.077093451 


图 6.7 数据 集 mycas.smbl 连 续 性 变量 相关 汇总 统计 量 (1) 


例 4: 调用 Action SIMPLE.SUMMARY 来 获取 连续 变量 统计 信息 。 


0 
1.2700190144 
0 


_KURTOSIS_ 
-0.960108148 
-0.110211787 
12.363498886 

49.5181972 
0.9757530686 
2.2467049403 
16.401744568 
42.537595007 
-0.821077385 


202.73449589 
3.9215181572 


92837 
1020664 
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_MEAN_ 
38.562291337 
6.9240028115 
0.7976739893 
34.028640434 
0.6185489845 
22331.577667 
100349.78291 
42.523833333 


9.993 


e e 719 中 


proc cas; 


action simple.summary result=prestatisticdata / 
table={name="smb1", 
vars={ {name="AGE"}, {name="creditage"}, 


{name="DELINQ"}, {name="DEBTINC"}, 


{name="NUMEMPLOYEE"}, {name="PROFITRATE"}, 


{name="RENT"}, {name="REVENUE"}, 


{name="STOREAREA"}, {name="YROPEN"} } } 


nthreads=4; 


print prestatisticdata; 


Action SIMPLE.SUMMARY 的 具体 语法 可 以 参考 Viya 文 档 ， 在 此 不 再 敖 述 。 运 行 结果 如 


6.8 所 示 。 


上 述 结果 中 ， 可 以 看 到 连续 性 变量 的 最 大 值 、 最 小 值 、 标 准 差 、 标 准 误差 、 方 差 、 变 异 系数 和 缺失 数 等 基本 统计 信息 。 


3. 变 量 的 选择 


在 数据 探索 中 ， 
进行 进一步 的 筛选 。 
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另外 一 个 重要 的 步骤 就 是 找 出 “最 


要 ”的 变量 。 
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图 6.8 ”数据 集 mycas.smbl 连 续 性 变量 相关 汇总 统计 量 (2) 


24.5290 


在 经 过 前 面 的 数据 理解 ， 进 行 初步 的 筛选 之 后 ， 数 据 中 仍然 可 能 包含 着 众多 变量 ， 


147150 


746310 


在 这 些 情形 下 ， 需 要 运用 数学 与 统计 的 方法 对 变量 


SAS Viya 进 行 数 据 挖掘 时 ， 常 见 的 、 用 于 变量 筛选 的 方法 有 如 下 几 种 。 
“ 主 成 分 法 

“ 逐步 回归 变量 选择 

“ 变量 缩减 (PROC VARREDUCE) 

“ 变量 与 目标 变量 之 间 的 关联 性 (Association) 


主 成 分 法 是 由 PROC PCA 来 实现 的 。 相 比 于 SAS 9 中 的 PROC PRINCOMP, PROC PCA 可 以 基于 内 存 进行 多 节点 多 线程 并 行 分 析 。 同 时 ，PROC PCALEPROC PRINCOMP 提 供 了 更 多 的 主 成 分 选取 方 
法 。 可 以 在 PROC PCA 中 通过 METHOD 选 项 来 指定 ， 比 如 METHOD=EIG、METHOD=ITERGS 和 METHOD=NIPALS。 


对 于 模型 训练 过 程 中 的 变量 选择 ，SAS Viya 中 不 同 的 过 程 步 也 提供 了 不 同 的 方法 ， 例 如 向 前 选择 法 、 向 后 消除 法 ， 逐 步 回归 法 的 变量 选择 方法 。 在 PROC LOGSELECT 中 间 ， 还 提供 了 LASSO 方 法 进行 
变量 的 选择 。 


PROC VARREDUCE 是 SAS Viya 中 最 新 提供 的 用 于 变量 缩减 的 过 程 步 ， 并 且 可 基于 内 存 的 多 节点 多 线程 提供 高 性 能 分 析 运算 。 另 外 ， 与 SAS 9 中 主 成 分 分 析 通 过 生成 一 组 新 变量 来 降低 维度 不 同 的 
是 ，PROC VARREDUCE 通 过 选择 原始 变量 的 子 集 (变量 选择 ) 来 降低 维度 。 从 而 ， 保 留 了 模型 的 可 解释 性 。 


除了 上 述 三 种 方法 之 外 ， 还 可 以 通过 考虑 变量 与 目标 变量 之 间 的 关联 性 来 对 变量 进行 筛选 。 例 如 ， 在 目标 变量 为 0-1 的 LOGISTIC 回 归 模 型 中 ， 可 以 通过 计算 卡 方 值 来 判断 数据 集中 的 每 一 个 变量 与 目标 
变量 之 间 是 否 存 在 关联 性 ， 并 通过 值 Gamma 等 统计 量 来 判断 关联 性 的 强 弱 。 


首先 以 变量 REASON 为 例 ， 通 过 Action SIMPLE.CROSSTAB 来 查看 离散 性 变量 和 目标 变量 之 间 的 关系 ， 代 码 如 下 。 


例 5: 运行 Action SIMPLE.CROSSTAB 查 看 变量 REASON 和 BAD 之 间 的 关系 。 


proc cas; 
action simple.crossTab result=outputdata_1 / 
acrossBy=TRUE 
association=true 
row="reason" 
col="Bad" 
chisgq=TRUE 
includeMissing=TRUE 
table={caslib="casuser", name="smb1"} 
nthreads=4; 
print outputdata_1; 


程序 的 运行 结果 如 图 6.9 到 图 6.11 所 示 。 


首先 可 以 看 到 变量 REASON 与 BAD 之 间 的 频数 表 。 其 中 ，REASON 变 量 有 1959 行 的 缺失 值 (交叉 表 的 第 一 行为 REASON ， 表 示 缺 失 值 ， 总 行 数 为 1959) ， 占 总 数 的 1/3。 


在 所 有 非 缺失 值 的 观测 中 ，REASON 取 值 为 0 与 为 1 的 各 占 一 半 。 在 BAD=1 (不 良 贷款 的 观测 中 ) ，REASON=0 与 REASON=1 的 观测 的 比例 为 384: 398， 大 约 为 1。 换 名 话说， 在 不 良 观测 的 贷款 中 ， 
该 变量 不 具有 很 好 的 区 分 性 。 


图 6.9 ”变量 REASON 与 BAD 的 关联 分 析 (1) 


然后 输出 的 就 是 描述 REASON 和 BAD 之 间 关 系 的 统计 量 ， 解 释 具 体 如 下 。 


‘Gamma: 两 个 有 序 变量 之 间 的 对 称 相关 性 测量 ， 它 的 范围 是 从 -1 到 1。 绝 对 值 接 近 1 的 值 表示 两 个 变量 之 间 存 在 紧密 的 关系 。 接 近 0 的 值 表示 关 系 较 弱 ， 或 者 没有 关系 ，-1 表 示 完 全 负 相 关 ，+1 表 示 完 全 
正 相关 。 绝 对 值 指示 强度 ， 绝 对 值 越 大 则 表示 关系 强度 越 高 。 可 能 的 取 值 范 围 是 从 -1 到 +1。Stuart Tau-C 是 与 Gamma 相 类 似 的 指标 ， 对 表 的 大 小 和 结 进行 了 调整 。 


“ Stuart Tau-C: 是 忽略 结 的 有 序 变量 的 非 参 数 相 关 性 测量 。 同 样 ，Stuart Tau-C 的 绝对 值 指 示 强 度 ， 绝 对 值 越 大 则 表示 关系 强度 越 高 。 可 能 的 取 值 范围 是 从 -1 到 +1。Kendall Tau-B: 将 结 考虑 在 内 的 有 序 
变量 的 非 参 数 相 关 性 测量 。 
-Somers D: 两 个 有 序 变 量 之 间 的 相关 性 测量 ， 它 的 范围 是 从 -1 到 +1。 绝 对 值 接近 1 的 值 表示 两 个 变量 之 间 存 在 紧密 的 关系 ， 绝 对 值 接近 0 则 表示 两 个 变量 之 间 关 系 很 弱 或 没有 关系 。C|R 表 示 行 变量 又 被 


视 为 自 变 量 ， 而 列 变量 Y 被 视 为 因 变 量 ，R|C 表 示 反 向 解释 。 


+ Lambda 非 对 称 : 反映 使 用 自 变量 的 值 来 预测 因 变 量 的 值 时 ， 可 能 的 帮助 。 范 围 是 从 0 到 +1。CIR 表 示 行 变量 X 被 视 为 自 变 量 ， 而 列 变 量 Y 被 视 为 因 变 量 ，RI1C 表 示 反 向 解释 。Lambda 对 称 可 以 简单 理解 
为 Lambda 非 对 称 C|R 和 Lambda 非 对 称 R|C 的 均值 。 


“ 不 确定 性 系数 : 是 用 变量 X 来 预测 变量 Y 的 不 确定 性 的 比例 。 取 值 范围 是 从 0 到 +1。CIR 表 示 行 变量 X 被 视 为 自 变 量 ， 而 列 变量 Y 被 视 为 因 变量 ，RI1C 表 示 反 向 解释 。 不 确定 性 系数 对 称 是 不 确定 性 系数 
CIR 和 不 确定 性 系数 RIC 的 均值 。 
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图 6.10 ”变量 REASON 与 BAD 的 关联 分 析 (2) 


最 后 输出 的 统计 量 是 卡 方 和 似 然 比 卡 方 。 从 卡 方 值 0.9917 也 可 以 看 出 变量 REASON 和 BAD 不 具有 了 明显 的 关联 性 。 


A611 变量 REASON 与 BAD 的 关联 分 析 (3) 


综合 上 述 分 析 ， 在 后 续 建 模 中 ， 对 于 变量 REASON， 将 不 予以 考虑 。 


除了 变量 REFASON 之 外 ， 我 们 将 剩余 的 分 类 变量 与 目标 变量 BAD 进 行 关联 性 分 析 ， 计 算 其 卡 方 值 及 其 他 统计 量 ， 代 码 如 下 。 


例 6: BAD 与 其 他 离散 变量 的 关联 分 析 。 


macro intertrend (Varname) ; 
proc cas; 
action simple.crossTab result=outputdata_1 / 
acrossBy=TRUE 
association=true 
row="varname " 
col="Bad" 
chisgq=TRUE 
includeMissing=TRUE 
table={caslib="casuser", name="smb1"} 
nthreads=4; 
print outputdata_1; 
run; 
mend; 


%intertrend (Creditlevel) 
%intertrend (Education) 
%intertrend (IndArea) 
%intertrend (Local) 


上 述 程序 的 运行 结果 包括 上 述 4 个 变量 与 BAD 的 频数 表 以 及 “BAD- 变 量 ”统计 量 表 ， 如 图 6.12 和 图 6.13 所 示 。 
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图 6.12 ”数据 集 mycas.smbl 中 离散 变量 与 目标 变量 的 关联 性 分 析 (1) 
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图 6.13 ”数据 集 mycas.smbl 中 离散 变量 与 目标 变量 的 关联 性 分 析 (2) 


从 图 6.12 和 图 6.13 可 以 看 出 ， 变 量 CREDITLEVEL、EDUCATION 与 目标 变量 BAD 的 卡 方 系数 <0.001， 所 以 它们 之 间 的 关联 性 较 强 ， 变 量 INDAREA 及 LOCAL 与 变量 BAD 的 关联 性 不 强 。 


因此 ， 需 要 考虑 将 变量 LOCAL 与 INDAREA 也 排除 在 用 于 建 模 的 变量 之 外 。 此 外 ， 从 统计 量 Gamma、Kendall Tau-B, Stuart Tau-c, Somers D 的 值 来 看 ，CREDITLEVEL 与 BAD 的 关联 性 比 
EDUCATION 与 BAD 之 间 的 关联 性 要 强 。 


最 后 ， 需 要 考虑 数据 集 mycas.smbl 输 入 变量 中 剩余 的 连续 变量 。 将 数据 按照 连续 变量 进行 排序 、 分 组 (比如 分 成 10 个 组 ) ， 并 查看 每 个 组 内 不 良 贷款 所 占 的 比例 。 


“ 如 果 不 同 组 中 BAD=1 所 占 的 比例 一 样 ， 那 么 说 明 该 连续 变量 的 取 值 对 BAD 的 区 分 性 不 是 很 好 ， 可 以 考 虎将 该 变量 予以 排除 。 
“ 如 果 不 同 组 中 BAD=1 所 占 的 比例 不 一 样 ， 则 应 考虑 变化 的 趋势 是 否 合理 。 
具体 的 代码 如 下 。 


例 7: 目标 变量 BAD 和 连续 变量 之 间 的 关联 性 分 析 。 


Smacro numtrend(caslibary, ds, varname, groupnum) ; 
/* 执 行 Action simple.summary, 得 到 最 大 值 和 最 小 值 */ 
proc cas; 
action simple.summary / 
casout={name="summout", replace="TRUE"} 
table={name="smb1"} 
nthreads=4; 
run; 
proc sql; 
select min, ( max - min_)/&groupnum. as group length into :min value, :group length 
from scaslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/. .summout 
where _COLUMN _="%upcase (&varname.)"; 


quit; 
/* 生 成 一 个 仅 包 含 待 分 析 变量 的 子 数据 集 */ 
data &caslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..temp; 
set &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..&ds (keep = &varname BAD); 
run; 


/** 对 排序 完 的 子 数据 集 进行 分 组 标记 */ 

data &caslibaryhttp: //www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/0EBPS/Text/ . . tmp; 
set &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/0EBPS/Text/ . . temp; 
group = ceil ((&varname.-&min_value.)/&group_length.); 

run; 


/* 根 据 分 组 标记 , 对 每 组 内 的 观测 求 平均 值 , 将 平均 值 存 储 为 新 的 数据 集 pLlot*/ 

data &caslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..plot; 
set &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/. .tmp; 
retain sum num; > 
by group; 
if first.group then 


do; 
sum=BAD; num=1; 

end; 

if last.group then 

do; 
num=num+1; 
sum=sum+BAD; 
avg=sum/num; 
output; 

end; 

else do; 
sum=sum+BAD; 
num=numt+1; 

end; 

run; 


/* 画 图 */ 


proc sgplot data = &caslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16482/0EBPS/Text/. .plot; 


title"&varname - Bad Trend"; 
series x= group y = avg/ markers; 
run; 
mend; 
/* 调 用 宏 numtrend */ 
Snumtrend(mycas, smbl, AGE, 10); 
Snumtrend(mycas, smbl, YROPEN, 10); 
Snumtrend(mycas, smbl, REVENUE, 10); 
snumtrend(mycas, smbl, RENT, 10); 
Snumtrend(mycas, smbl, creditage, 10); 
Snumtrend(mycas, smbl, debtinc, 10); 
Snumtrend(mycas, smbl, deling, 10); 
Snumtrend(mycas, smbl, PROFITRATE, 10); 
Snumtrend(mycas, smbl, STOREAREA, 10); 


程序 运行 结果 如 图 6.14 所 示 。 


AGE-Bad Trend 


0.35 
0.30 
> 0.25 
0.20 


0.15 


0 2 4 6 
group 


REVENUE-Bad Trend 
1.0 


0.8 


0.6 


avg 


0.4 


0.2 


0.0 


group 


YROPEN-Bad Trend 
0.8 


0.6 


0.4 


avg 


0.2 


0.0 


6 8 10 
group 


© 
N 
A 


RENT-Bad Trend 
1.0 


0.8 


0.6 


avg 


0.0 


group 


6.14 ”数据 集 mycas.smbl 中 连续 变量 与 目标 变量 的 关联 性 分 析 
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从 图 6.14 可 以 看 出 ， 输 入 变量 不 同 组 在 目标 变 有 不 同 程度 的 区 分 性 。 


上 述 程 序 运行 过 程 没有 考虑 缺失 值 对 整体 关联 性 分 析 结 果 的 影响 ， 趋 势 展示 的 结果 中 不 包含 缺失 值 组 。 修 改 例 7 的 代码 ， 以 包含 缺失 值 数据 : 


data &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..tmp; * 对 排序 完 的 子 数据 集 进 行 分 组 标记 ; 
set &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..temp; 
group = ceil ((&varname.-&min_value.) /&group_length.) ; 
/* 修 改 group 值 ,为 缺失 值 组 赋值 group 为 0*/ = 
if group=0 then group=1; 
else if group=. then group=0; 
run; 


修改 以 后 的 完整 代码 如 下 所 示 : 


macro numtrend(caslibary, ds, varname, groupnum); 
/* 执 行 Action simple.summary, 得 到 最 大 值 和 最 小 值 */ 
proc cas; 
action simple.summary / 
casout={name="summout", replace="TRUE"} 
table={name="smb1"} 
nthreads=4; 
run; 
proc sql; 
select _min_, ( max - min_)/&groupnum. as group length into :min value, :group_length 
from &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/. .summout 
where COLUMN ="%upcase (&varname.)"; 
quit; E ~ 
/* 生 成 一 个 仅 包 含 待 分 析 变量 的 子 数据 集 */ 
data &caslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..temp; 
set &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..&ds (keep = &varname BAD); 
run; 


/** 对 排序 完 的 子 数据 集 进行 分 组 标记 */ 
data &caslibaryhttp: //www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/0EBPS/Text/ . .tmp; 
set &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/0EBPS/Text/ . . temp; 
group = ceil((&varname.-g&min value.)/&group length.); 
/* 修 改 group 值 ,为 缺失 值 组 赋值 group 为 0*/ > 
if group=0 then group= 


else if group=. then group=0; 
run; 


/* 根 据 分 组 标记 , 对 每 组 内 的 观测 求 平 均值 , 将 平均 值 存储 为 新 的 数据 集 pLlot*/ 
data &caslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..plot; 
set &caslibaryhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..tmp; 
retain sum num; ~ 
by group; 
if first.group then 
do; 
sum=BAD; num=1; 
end; 
if last.group then 
do; 
num=num+1; 
sum=sum+BAD; 
avg=sum/num; 
output; 
end; 
else do; 
sum=sum+BAD; 
num=num+1; 
end; 
run; 


/* 画 图 */ 

proc sgplot data = &caslibaryhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/..plot; 
title"svarname - Bad Trend"; E 
series x= group y = avg/ markers; 

run; 

mend; 

/* 调 用 宏 numtrend */ 

Snumtrend(mycas, smbl, AGE, 10); 

Snumtrend(mycas, smbl, YROPEN, 10); 

Snumtrend(mycas, smbl, REVENUE, 10); 

Snumtrend(mycas, smbl, RENT, 10); 

Snumtrend(mycas, smbl, creditage, 10); 

Snumtrend(mycas, smbl, debtinc, 10); 

Snumtrend(mycas, smbl, deling, 10); 

Snumtrend(mycas, smbl, PROFITRATE, 10); 

Snumtrend(mycas, smbl, STOREAREA, 10); 


运行 修改 后 的 代码 ， 在 结果 中 将 会 发 现 数据 的 趋势 图 和 没有 缺失 值 的 趋势 图 有 比较 明显 的 变化 ， 特 别 是 变量 AGE、REVENUE、DEBTINC， 如 图 6.15 所 示 。 
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图 6.15 ”包含 缺失 值 的 连续 变量 与 目标 变量 的 关联 性 分 析 
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图 6.15 (4) 


以 变量 DEBTINT 为 例 ， 一 般 来 说 ， 资 产 负债 率 越 高 越 容易 违规 ， 但 是 从 图 6.15 的 “Debtinc-BAD” 趋 势 图 来 看 ， 似 乎 资产 负债 率 低 的 违规 也 比较 多 。 通 过 对 数据 进行 进一步 的 观测 ， 可 以 发 现 ， 第 一 个 
组 是 缺失 值 组 。 因 此 ， 该 趋势 图 初期 “BAD=1” 的 观测 较 多 是 由 于 Debtinc 为 缺失 值 而 造成 的 。 同 理 ， 也 可 以 对 其 他 变量 进行 分 析 。 


64.3 数据 加 工 


前 面 介 绍 了 对 数据 如 何 进行 基本 的 理解 。 对 数据 的 理解 至 关 重要 ， 只 有 对 数据 有 了 深刻 的 理解 ， 才 可 能 进行 本 节 讨 论 的 如 何 对 数据 进行 进一步 加 工 ， 对 数据 的 加 工具 体 如 下 。 


“ 缺失 值 的 处 理 。 
“原始 数据 集 的 分 割 。 
“ 变量 的 转化 。 

1 .缺失 值 的 处 理 


如 果 一 条 观测 在 某 一 个 变量 上 的 取 值 为 缺失 值 ， 那 么 就 称 该 观测 为 不 完整 观测 。 正 如 前 面 所 描述 的 ， 缺 失 值 对 数据 的 趋势 有 明显 的 影响 。 在 数据 挖掘 的 项 目 中 ， 对 缺失 值 的 处 理 也 是 数据 挖掘 中 的 难点 
之 一 。SAS 中 的 多 数 过 程 步 都 不 会 考虑 不 完整 观测 。 虽 然 这 样 处 理 比 较 方便 、 简 单 ， 但 是 也 存在 一 定 的 问题 ， 例 如 ， 不 完整 观测 虽然 在 某 个 变量 上 的 值 缺失 了 ， 但 是 在 其 余 变量 上 的 信息 仍然 是 有 用 的 ， 并 
且 数 据 缺 失 本 身 也 代表 了 某 些 信息 。 


SAS Viya 中 对 缺失 值 的 处 理 可 以 通过 PROC VARIM PUTE 来 完成 。 


对 于 连续 性 的 变量 ， 可 以 用 指定 默认 值 、 平 均值 、 中 位 数 、 最 小 值 、 最 大 值 等 方法 来 处 理 。 对 于 离散 型 变量 ， 可 以 用 指定 默认 值 、 众 数 、 最 小 值 、 最 大 值 等 方法 来 处 理 。 


企 前 面 的 数据 探索 环节 ， 我 们 发 现 数据 集 mycas.smbl 中 ， 总 共有 6 个 变量 含有 缺失 值 。 分 别 是 DELINQ、DEBTINC、CREDITAGE、AGE、REVENUE 及 REASON。 其 中 ， 我 们 可 以 通过 分 析 将 REASON 
变量 排除 在 用 于 建 模 的 变量 之 外 。 因 此 ， 现 在 仪 需要 对 其 余 5 个 变量 进行 缺失 值 的 处 理 。 首 先 考虑 变量 DEBTINC 和 变量 DELINQ。 


回顾 变量 DEBTINC、 变 量 DELINQ 与 目标 变量 的 趋势 图 ， 不 包含 缺失 值 的 趋势 图 如 图 6.16 所 示 。 
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图 6.16 “变量 DEBTINC、DELINQ 和 目标 变量 趋势 图 


变量 DEBTINC 表 示 的 是 资产 负债 比率 ， 一 般 来 阅 ， 该 值 越 大 ， 为 不 良 贷款 的 可 能 性 相对 就 越 大 。 上 述 趋势 图 (图 6.16) 也 验证 了 这 一 点 : 由 于 数据 是 按照 DEBTINC 值 分 组 排序 的 ， 因 此 group 值 越 大 ， 
说 明 DEBTINC 值 越 大 ， 数 据 在 第 3 组 之 间 有 明显 的 上 升 趋势 ， 第 四 组 以 后 的 值 均 有 较 高 的 不 良 贷款 率 。 鉴 于 此 ， 在 对 缺失 值 进行 填补 时 ， 可 以 考虑 将 DEBTINC 的 值 设 置 得 相对 大 一 些 。 打 开 用 于 生成 趋势 图 
的 数据 mycas.DEBTINC_PLOT， 如 图 6.17 所 示 ， 可 以 发 现 数据 集中 在 第 1[、2、3 组 ， 所 以 后 10% 或 20% 的 数据 应 该 是 值 比较 大 的 数据 。 这 里 可 以 考虑 将 DEBTINC 缺 失 值 设置 为 80% 或 90% 百 分 位 数值 。 
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图 6.17 变量 DEBTINC 和 目标 变量 趋势 图 的 数据 


变量 DELINQ 表 示 的 是 信用 记录 中 拖欠 交易 的 次 数 。 从 总 体 上 看 ， 趋 势 图 (图 6.16) 中 ，group 的 值 越 大 (拖欠 次 数 越 多 ) ， 变 量 BAD 取 值 为 1 的 观测 比例 也 就 越 大 。 因 此 ， 在 对 变量 DELINQ 进 行 缺失 
值 填补 时 ， 同 样 可 以 考虑 将 DELINQ 的 值 设置 得 相对 大 一 些 。 考 虑 到 数据 的 集中 程度 (参考 生成 趋势 图 的 数据 mycas.DELINQ_PLOT) ， 这 里 考虑 将 DELINQ 缺 失 值 设置 为 80% 或 90% 百 分 位 数值 。 


为 此 ， 需 要 调用 Action PERCENTILE 计 算出 DEBTINC 和 DELINQ 的 分 位 数值 ， 代 码 如 下 。 


例 8: 调用 Action Percentile.Percentile 计 算 变 量 DEBTINC 和 DELINQ 的 90% 分 位 数 。 


proc cas; 
action percentile.percentile/ 
casOut={caslib="CASUSER (sasdemo) ", name="perct9", replace=true} 
table={caslib="CASUSER (sasdemo) ", name="SMBL", 
vars={ {name="DELINQ"}, {name="DEBTINC"}}} values={"90"}; 


如 图 6.18 所 示 ， 在 输出 数据 集 perct9 中 ， 可 以 看 到 变量 DEBTINC 和 DELINQ 的 90% 分 位 数值 分 别 为 41.786 和 2。 


_Value_ 
1 DEBTINC 41.786185288 


2 DELINQ 2| 


图 6.18 Action PERCENTILE.PERCENTILE 的 90% 百 分 位 数 结果 


对 于 剩余 变量 ， 即 REVENUE、CREDITAGE 与 AGE， 只 需要 使 用 均值 填补 缺失 值 即 可 。 这 三 个 变量 的 均值 可 以 在 图 6.7 中 找到 ， 分 别 是 : REVENUE 均 值 为 100350、CREDITAGE 均 值 为 6.9240、AGE 均 
值 为 38.5623。 


最 后 ， 调 用 PROC VARIMPUTE 对 缺失 值 进行 处 理 。PROC VARIMPUTE 的 语法 如 下 : 


PROC VARIMPUTE DATA= 输 入 数据 集 < 选项 > ; 
CODE FILE = 输出 文件 名 ; 


FREQ 变量 ; 

INPUT 变量 < /选项 > ; 

OUTPUT OUT= 输 出 数据 集 < 选项 >; 
RUN; 


对 其 中 一 些 关键 的 语句 介绍 如 下 。 


< PROC VARIMPUTE 语 和 句 。 其 语法 为 : 


PROC VARIMPUTE DATA= 输 入 数据 集 < 选项 >; 


其 中 ，DATA= 输 入 数据 集 : 指定 需要 进行 缺失 值 处 理 的 数据 集 。 


该 语句 可 以 使 用 的 选项 如 下 。 
“NTHREADS= 线 程 数 : 指定 进行 缺失 值 运算 的 线程 数 。 默 认 值 是 节点 的 CPU 个 数 。 


:INPUT 语句 ， 指 定 一 个 或 多 个 输入 变量 ， 以 及 对 该 变量 进行 缺失 值 计 算 的 方法 。 其 语法 为 : 


INPUT 变量 </ 选 项 >; 


其 中 ， 选 项 为 CTECH (或 者 CONTINUOUSTECH) = 缺失 值 运算 方法 。 可 以 使 用 的 缺失 值 运算 方法 包括 如 下 几 种 。 
MEAN: 均值 。 

< MEDIAN: 众 位 数 。 

: RANDOM: 最 大 值 和 最 小 值 之 间 的 随机 数 。 

: VALUE CVALUES= 数 值 列表 。 

默认 的 缺失 值 运算 方法 为 均值 ， 即 CTECH=MEAN。 


"OUTPUT 语句 。 该 语句 指定 包含 缺失 值 运算 结果 的 输出 数据 集 。 其 语法 为 : 


OUTPUT OUT=CAS 逻 辑 库 .CAS 表 < 选项 > ; 


OUT 选 项 是 必需 项 。 该 语句 还 可 以 指定 其 他 的 选项 ， 具 体 如 下 。 
- COPYVAR= 变 量 
- COPYVARS= 变 量 列 表 


该 选项 指定 了 一 个 或 多 个 可 以 从 输入 数据 集中 复制 过 来 的 列 。 


对 上 述 数据 进行 缺失 值 处 理 的 代码 如 下 。 


例 9: 对 缺失 值 的 处 理 。 


proc varimpute data=mycas.smbl seed=18000; 

input debtinc deling/ctech=value cvalues=41.78,2; 

input creditage revenue age/ctech=mean; 

output out=mycas.smblout COPYVARs=(PROFITRATE BAD EDUCATION YROPEN RENT CREDITLEVEL STOREAREA NUMEMPLOYEE INDAREA LOCAL ID); 
run; 


上 述 代码 对 DEBTINC 和 DELINQ 变 量 ， 使 用 指定 值 百 分 位 数 进 行 缺失 值 处 理 。 对 CREDITAGE、REVENUE、AGE 变 量 ， 使 用 均值 进行 缺失 值 处 理 。 同 时 ， 复 制 了 原 数据 集中 的 变量 如 上 所 示 。 


进行 缺失 值 处 理 之 后 ， 在 输出 数据 集中 生成 了 新 的 变量 ， 分 别 是 : IM_DEBTINC、IM_DELINQ、IM_CREDITAGE、IM_REVENUE 和 1IM_AGE。 为 了 方便 后 续 建立 模型 ， 需 要 对 该 变量 重新 命名 ， 代 码 
如 下 : 


data mycas.smblmodel; 
set mycas.smblout (RENAME=(IM AGE=AGE IM CREDITAGE=CREDITAGE 
IM_DEBTINC=DEBTINC IM DELINQ=DELINQ IM_REVENUE=REVENUE) ) ; 
run; 


2. 分 割 原始 数据 集 


在 数据 挖掘 的 过 程 中 ， 一 般 会 将 原始 数据 集 分 成 若干 子 数 据 集 ， 例 如 ， 训 练 数据 集 、 验 证 数据 集 和 测试 数据 集 ， 这 些 子 集 互 不 相交 ( 即 任意 两 个 子 数 据 集 都 不 包含 原始 数据 集中 的 同一 条 观测 ) 。 


在 本 例 中 ， 我 们 将 原始 数据 集 划分 成 70% 的 训练 数据 集 与 30% 的 验证 数据 集 。 


{ESAS Viya 中 ， 可 以 通过 PROC PARTITION 对 数据 集 进行 划分 。PROC PARTITION 的 语法 如 下 : 


PROC PARTITION < 选项 > ; 

BY 变量 < 变量 .变量 > ; 
OUTPUT OUT = 输出 数据 集 < 选项 > ; 
DISPLAY < 展示 输出 表 > < /选项 > ; 
DISPLAYOUT 展 示 输 出 表 < /选项 > ; 
RUN; 


对 其 中 一 些 关键 语句 和 选项 的 介绍 如 下 。 


- PROC PARTITION 语 句 。 其 语法 为 : 


PROC PARTITION DATA= 输 入 数据 集 < 选 项 >; 


其 中 ，DATA= 输 入 数据 集 : 指定 需要 进行 缺失 值 处 理 的 数据 集 。 


该 语句 可 以 使 用 的 选项 及 说 明 具 体 如 下 。 


- NTHREADS= 线 程 数 : 指定 进行 缺失 值 运算 的 线程 数 。 默 认 值 是 节点 的 CPU 个 数 。 
“PARTIND: 向 输出 数据 表 添 加 一 个 分 区 指示 符 _PartInd_。 
“ SAMPPCT= 样 例 百 分 比 。 当 指定 此 选项 及 PARTIND 选 项 时 ，_PartInd_ 为 1 的 样本 的 百分比 由 该 选项 指定 ，_PartInd 为 0 的 样本 的 百分比 为 100 减 该 样本 的 百分比 。 


+- SAMPPCT2= 样 例 百 分 比 >。 如 果 同 时 指定 SAMPPCT、PARTIND 和 该 选项 ， 则 输入 数据 集 被 划分 为 3 部 分 。 在 _PartInd_ 标 识 列 ， 标 识 为 1 的 样本 由 SAMPPCT 选 项 指定 ， 标 识 为 2 的 样本 百分比 由 该 选项 指 
定 ， 其 余 样 本 标识 为 0， 其 百分比 为 100-SAMPPCT-SAMPPCT2。 


“EVENT、EVENPROP、SAMPPCTEVT: 对 不 平衡 数据 进行 过 采样 使 用 的 选项 。 不 平衡 数据 是 数据 中 不 同类 别 的 、 差 别 很 大 的 数据 ， 比 如 数据 中 正 样 本 的 比例 为 1%， 而 负 样 本 的 比例 为 99% 的 数据 。 
SAS Viya 提 供 了 上 述 选 项 对 不 平衡 数据 进行 过 采样 。 EVENT=“ 小 概率 事件 值 ”， 比 如 信用 卡 违约 事件 中 ， 违 约 事 件 为 1， 若 希望 设置 违约 事件 为 小 概率 ， 则 EVENT=1; EVENTPROP= 事 件 百分比 ， 例 
如 ，EVENTPROP=0.3， 则 表示 指定 样品 的 30% 为 小 概率 事件 ， 而 70% 不 是 小 概率 事件 ;SAMPPCTEVT= 抽 样 概率 ， 是 指 从 小 概率 样本 中 抽样 的 比率 ,例如 ，SAMPPCTEVT=56.5 指 定 要 采样 56.5% 的 罕见 事 
件 。 


“ BY 语句 ， 指 定 一 个 或 多 个 用 于 分 区 的 变量 。 其 语法 为 : 


BY 变量 < 变量 .变量 >; 


BY 语句 指定 了 用 于 抽样 的 变量 。 对 于 过 采样 ， 只 能 使 用 一 个 变量 。 


< OUTPUT 语句 ， 指 定 输出 数据 集 。 其 语法 为 : 


OUTPUT OUT = 输出 数据 集 < 选项 >; 


该 语句 可 以 使 用 的 选项 及 说 明 具 体 如 下 。 
“ COPYVAR= 变 量 : 指定 从 输入 数据 集 复制 过 来 的 变量 。 也 可 以 使 用 COPYVARS= (变量 … 变 量 ) 用 于 指定 多 个 变量 。 如 果 不 指定 这 个 选项 ， 则 所 有 的 输入 数据 集中 的 列 都 会 被 复制 到 输出 数据 集中 。 
` PARTINDNAME= 分 区 列 的 列 名 : 指定 输出 数据 集中 用 于 分 区 标识 的 列 名 ， 默 认 值 为 _PartInd_。 

我 们 使 用 如 下 代码 将 数据 划分 成 70% 的 训练 数据 集 与 30% 的 验证 数据 集 。 


例 10: 对 数据 集 进 行 分 组 ，70% 的 训练 数据 集 与 30% 的 验证 数据 集 。 


proc partition data=mycas.smblmodel samppct=70 samppct2=30 seed=1234 partind; 
by bad; 
output out=mycas.smblmodel 
copyvars=(PROFITRATE BAD DELINQ DEBTINC EDUCATION YROPEN REVENUE 
CREDITAGE AGE RENT CREDITLEVEL STOREAREA NUMEMPLOYEE INDAREA LOCAL ID) ; 
run; 


经 过 划分 之 后 的 数据 集 mycas.smblmodel， 新 增 标识 列 _ PARTIND_， 其 值 为 1 和 和 2。 其 中 ，1 用 于 标识 训练 数据 ，2 用 于 标识 验证 数据 ， 如 图 6.19 所 示 。 
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图 6.19 PROC PARTITION 结 果 中 新 增 标识 列 _PartInd_ 


3. 变 量 的 转换 


在 数据 加 工 中 ， 变 量 的 转换 也 是 一 个 重要 的 环节 。 对 于 连续 性 变量 ， 简 单 变形 (Simple Transformations) 和 数据 分 箱 是 比较 常用 的 数据 转换 的 方法 。 


常见 的 简单 变形 的 方法 有 : LOG、 开 方 根 、 取 逆 、 平 方 、 取 指数 及 标准 化 等 ， 通 常 使 用 变换 后 的 新 值 来 代 蔡 原 来 的 输入 变量 进行 分 析 。 当 然 ， 变 量 的 转换 还 包括 更 复杂 的 技术 ， 例 如 ， 从 现 有 的 多 个 变 
量 经 过 复杂 的 组 合 处 理 生成 新 的 变量 。 进 行 恰当 的 变量 转换 需要 对 数据 有 深刻 的 理解 、 扎 实 的 统计 知识 和 丰富 的 实践 经 验 。 


数据 分 箱 也 是 数据 挖掘 过 程 中 常见 的 数据 处 理 技术 。 比 如 某 些 算法 需要 分 类 变量 ， 或 者 出 于 数据 隐私 的 要 求 ， 敏 感 类 个 人 信息 (如 工资 ) 可 采用 范围 的 报告 形式 ， 而 不 使 用 实际 工资 数字 。 这 都 需要 对 
数据 进行 分 箱 处 理 。 


SAS Viya 提 供 了 PROC BINNING 用 于 数据 分 箱 。PROC BINNING 的 语法 如 下 : 


PROC BINNING < 选项 >; 
CODE FILE = 文件 名 ; 
FREQ 变量 ; 
INPUT 变量 </ 选 项 >; 
OUTPUT OUT=CAS 逻 辑 库 .CAS 数 据 集 < 选项 >; 
TARGET 变量 /EVENT=" 类 别 "; 
RUN; 


其 中 各 项 及 说 明 如 下 。 


“PROC BINNIG 语 句 。 其 语法 为 : 


PROC BINNIG < 选项 >; 


该 语句 可 以 使 用 的 选项 具体 如 下 。 
» DATA= 输 入 数据 集 。 


+ NUMBIN= 分 箱 数 : 指定 进行 缺失 值 运算 的 线程 数 。 默 认 值 是 节点 的 CPU 个 数 。 


:METHOD= 分 箱 方法 : 向 输出 数据 表 添 加 一 个 分 区 指示 符 _PartInd_。 
-WOE (WOEADJUST=) : 计算 WOE 和 IV。 


- CODE 语句 。 其 语法 为 : 


CODE FILE = 文件 名 ; 


“ INPUT 语句 ， 指 定 用 于 分 箱 的 变量 。 其 语法 为 : 


INPUT 变量 列表 < /选项 >; 


该 语句 可 以 使 用 的 选项 具体 如 下 。 


- NUMBIN= 整 数 。 


- OUTPUT 语 句 ， 指 定 输 出 数据 集 。 其 语法 为 : 


OUTPUT OUT = 输出 数据 集 < 选项 >; 


该 语句 可 以 使 用 的 选项 具体 如 下 。 


- COPYVAR= RÈ: 指定 从 输入 数据 集 复制 过 来 的 变量 。 也 可 以 使 用 COPYVARS= (RH RE) 用 于 指定 多 个 变量 。 如 果 不 指 定 这 个 选项 ， 则 所 有 的 输入 数据 集中 的 列 都 会 被 复制 到 输出 数据 集中 。 


“TARGET 语句 ， 指 定 用 于 计算 WOE 和 IV 的 变量 。 其 语法 为 : 


TARGET 变量 / EVENT = "类 别 "; 


6.5 ”数据 建 模 


经 过 前 面 一 系列 的 数据 抽样 、 探 索 与 加 工 之 后 ， 我 们 对 数据 有 了 相当 的 了 解 ， 而 且 数 据 经 过 处 理 之 后 ， 就 可 以 用 来 建 模 了 。 建 模 的 过 程 包含 模型 的 训练 、 模 型 的 验证 与 模型 的 测试 等 步骤 ， 这 三 个 步骤 
分 别 对 应 着 三 个 数据 集 : 训练 数据 集 、 验 证 数据 集 与 测试 数据 集 。 模 型 经 过 训练 与 验证 之 后 ， 可 对 模型 的 参数 进行 适当 的 调整 ， 以 得 到 更 好 的 模型 。 


模型 的 训练 与 验证 是 一 个 反复 的 过 程 ， 如 果 使 用 了 多 种 建 模 方法 ， 则 还 会 存在 模型 的 比较 过 程 。 


6.5.1 ”模型 的 建立 


一 般 来 说， 对 于 同一 个 问题 可 以 采用 多 种 方法 建立 模型 ， 然 后 比较 多 个 模型 的 效果 ， 从 中 选择 出 一 个 最 好 的 方法 。 即 使 是 采用 某 一 特定 的 方法 建立 起 来 的 模型 ， 也 需要 不 断 进行 试验 ， 调 整 模型 中 的 参 
数 。 总 之 ， 模 型 的 建立 与 调试 是 一 个 反复 试验 的 过 程 。 


数据 集 mycas.smblmodel 的 目标 变量 是 0-1 变 量 ， 输 入 变量 包含 连续 变量 与 分 类 变量 ， 是 比较 典型 的 信用 评分 模型 应 用 场景 。 逻 辑 回归 算法 经 常 被 用 于 信用 评分 体系 。 近 年 来 ， 随 着 大 数据 建 模 技术 的 
不 断 发 展 ， 出 现 了 许多 新 算法 ， 比 如 支持 向 量 机 (Support Vector Machine，SVM) 和 梯度 提升 决策 树 (Gradient Boosting Decision Tree，GBDT) 等 。 


支持 向 量 机 是 一 种 分 类 学 习 算法 。 支 持 向 量 机 的 基本 模型 是 定义 在 特征 空间 上 的 间隔 最 大 的 线性 分 类 器 。 线 性 支持 向 量 机 与 逻辑 回归 类 似 ， 都 是 给 每 一 个 变量 赋予 一 个 权重 因子 ， 最 终 变量 的 加 权 和 将 
作为 预测 的 依据 。 同 时 支持 向 量 机 可 以 使 用 核 函 数 将 变量 映射 到 高 维 空间 ， 从 而 提升 模型 的 效果 。 


梯度 提升 决策 树 是 多 个 子 模型 之 间 相 互 协作 ， 后 一 个 子 模型 对 前 一 个 模型 的 失误 进行 修正 。 进 行 梯度 提升 决策 树 模型 预测 的 时 候 ， 对 于 输入 的 一 个 样本 实例 ， 首 先 会 赋予 一 个 初始 值 ， 然 后 会 遍历 每 一 
棵 决策 树 ， 每 棵 树 都 会 对 预测 值 进行 调整 修正 ， 最 后 得 到 预测 的 结果 。 


SAS Viya 中 ， 这 些 模 型 分 别 由 不 同 的 过 程 步 来 实现 ， 具 体 如 下 。 
- LOGISTIC 回归 : PROC LOGSELECT。 
- 梯度 提升 决策 树 : PROC GRADBOOST。 


- 支持 向 量 机 : PROC SVMACHINE 。 


基于 业务 经 验 和 初步 分 析 ，X 公 司 的 业务 人 员 认 为 申请 贷款 人 的 信用 程度 、 拖 欠 贷 款 的 次 数 、 店 铺 的 莒 业 额 、 盈 利 程度 及 店铺 存在 的 时 间 等 因素 均 为 决定 是 否 发 放贷 款 的 主要 因素 。 


下 面 ， 我 们 分 别 来 看 一 下 如 何 用 不 同 的 模型 来 进行 分 析 。 


1.LOGISTIC 回 归 分 析 


Logistic 回 归 为 概率 型 非 线性 回归 模型 ， 是 研究 二 分 类 观察 结果 与 一 些 影响 因素 之 间 关 系 的 一 种 多 变量 分 析 方 法 ， 常 用 于 疾病 自动 诊断 、 经 济 预测 等 领域 。 


例 11: 使 用 Logistic 模 型 建 模 。 


proc logselect data=mycas.smblmodel ithist; 
class creditlevel (param=EFFECT REF='2"'); 
model bad (event='1')=creditlevel deling debtinc profitrate revenue yropen /TYPE3 INCLUDE=9; 
OUTPUT OUT=mycas.modelout all copyvars=(_partind_ bad); 
code file="SUSERDIR./logselect_score.sas"; 
PARTITION ROLEVAR= partind (TRAIN='1' VALIDATE='2'); 


运行 上 述 代码 ， 输 出 汇总 信息 。 在 汇总 信息 中 可 以 看 到 ，PROC LOGSELECT 使 用 的 优化 方法 是 牛顿 -拉夫 逊 (Newton-Raphson) 方法 。 牛 顿 - 拉 夫 逊 方法 是 一 种 在 实数 域 和 复数 域 上 近似 求解 方程 的 
方法 ， 其 基本 思想 是 利用 目标 函数 的 二 次 Taylor 展 开 ， 并 将 其 最 小 化 。 牛 顿 法 使 用 函数 f (x) 的 泰勒 级 数 的 前 面 几 项 来 寻求 方程 f(x) =0 的 根 。 


在 汇总 信息 中 ， 还 可 以 看 到 训练 数据 集 和 验证 数据 集中 BAD 为 0 和 1 的 观测 数 ， 分 类 变量 CREDITLEVEL 的 分 类 水 平等 信息 ， 结 果 如 图 6.20 所 示 。 


The LOGSELECT Procedure 


图 6.20 LOGSELECT 模 型 输出 (1) 


然后 ， 如 图 6.21 所 示 ， 各 项 输出 及 说 明 具 体 如 下 。 


“ “ 选 代 历史 ” 表 ， 该 表 列 出 了 牛顿 - 拉夫 进 优化 方法 的 选 代 过 程 。 可 以 看 到 总 共 进行 了 6 次 和 迭代， 并且 最 后 的 选 代 结果 满足 了 收 敏 准则 。PROC LOGSELECT 语 名 提供 了 丰富 的 优化 参数 。 比 如 ， 可 以 
指定 优化 参数 MAXITER、MINITER 来 指定 最 小 、 最 大 和 迭代 次 数 ， 还 可 以 使 用 参数 MAXTIME 来 指定 用 于 优化 的 最 长 CPU 时 间 。 当 然 了 ， 还 可 以 使 用 参数 TECHNIQUE 来 指定 优化 的 方法 。 


: “ 维 ” 表 ， 从 该 表 可 以 看 出 维 的 统计 信息 。 在 该 表 中 可 以 看 到 效应 数 为 7。 分 别 是 模型 中 使 用 的 6 个 变量 (CREDITLEVEL, DELINQ, DEBTINC, PROFITRATE, REVENUE, YROPEN) 和 截 距 
(Intercept) 。 在 该 表 中 ， 还 可 以 看 到 所 有 的 列 都 参与 了 优化 。 


“检验 全 局 原 假设 ” 表 ， 若 接受 该 假设 检验 ， 则 说 明 模型 中 的 变量 对 目标 变量 的 分 类 几乎 没有 作用 。 从 该 表 的 结果 中 可 以 看 出 ， 模 型 中 的 变量 对 目标 变量 的 分 类 是 有 作用 的 。 


- “ 拟 合 统计 量 ” 表 ， 其 中 列 出 了 AIC、SBC、R 方 等 统计 量 结果 。 当 有 多 个 LOGISTIC 模 型 时 ， 这 些 统计 量 可 以 用 于 模型 的 比较 。 


然后 ， 输 出 参数 估计 和 模型 方差 分 析 结 果 ， 如 


6.22 所 示 。 


6.21 LOGSELECT 模 型 输出 (2) 
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6.22 LOGSELECT 模 型 输出 (3) 


“参数 估计 ” 表 ， 该 表 是 对 模型 数学 表达 式 中 各 个 参数 的 估计 。 列 “Pr> 卡 方 ”用 于 检验 该 变量 在 LOGISTIC 回 归 模 型 中 是 否 显著 。 从 图 6.22 中 显示 的 表 可 以 看 出 ，“Pr> 卡 方 ” 列 的 所 有 值 均 小 于 0.05 
的 默认 值 ， 可 以 认为 所 有 变量 对 模型 的 贡献 都 是 显著 的 。 


“模型 方差 分 析 (联合 检验 ) ” 表 ， 该 表 的 卡 方 值 均 小 于 零 ， 说 明 模型 中 的 变量 对 目标 变量 的 区 分 都 是 有 一 定 程度 的 作用 的 。 从 这 个 角度 来 看 ， 结 果 也 验证 了 业务 人 员 的 判断 。 


最 后 给 出 的 是 运行 PROC LOGSELECT 模 型 的 时 间 统计 和 输出 表 信 息 ， 如 图 6.23 所 示 。 


R 
=à 


{iT 
CASUSER(sasdemo) | MODELOUT 6000 


图 6.23 LOGSELECT 模 型 输出 (4) 


2. 梯 度 提升 决策 树 模型 


梯度 提升 决策 树 (Gradient Boost Decision Tree，GBDT) 模型 使 用 多 个 决策 树 ， 在 一 定 程度 上 其 可 以 避免 使 用 单个 决策 树 容易 出 现 的 过 拟 合 现象 。 


梯度 提升 决策 树 模型 先 用 一 个 初始 值 来 学 习 一 棵 决策 树 ， 叶 子 处 可 以 得 到 预测 的 值 ， 以 及 预测 之 后 的 残 差 ， 然 后 后 面 的 决策 树 就 要 基于 前 面 决 策 树 的 残 差 来 学 习 ， 直 到 预测 值 和 真实 值 的 残 差 为 零 。 最 
后 对 于 测试 样本 的 预测 值 ， 就 是 前 面 许多 棵 决策 树 预 测 值 的 累加 。 


Gradient Boost 与 传统 Boost 的 区 别 是 ,每 一 次 的 计算 都 是 为 了 减少 上 一 次 的 残 差 ， 而 为 了 消除 残 差 ， 可 以 在 残 差 减少 的 梯度 (Gradient) 方向 上 建立 一 个 新 的 模型 。 所 以 说 ， 在 Gradient Boost, 
每 个 新 模型 的 建立 都 是 为 了 使 得 之 前 模型 的 残 差 往 梯度 方向 减少 ， 与 传统 Boost 对 正确 、 错 误 的 样本 进行 加 权 有 着 很 大 的 区 别 。 


SAS Viya 使 用 PROC GRADBOOST 来 实现 梯度 提升 决策 树 模 型 ， 代 码 如 下 。 


例 12: 使 用 PROC GRADBOOST 进 行 建 模 。 


proc gradboost data=mycas.smblmodel; 
target BAD / level=nominal; 
input deling debtinc profitrate revenue yropen / level=interval; 
input creditlevel / level=nominal; 
partition rolevar=_partind_(train='1' validate='2'); 
code file="&USERDIR./gradboost_score.sas" ; 
run; 


运行 上 述 代码 ， 输 出 汇总 信息 如 图 6.24 所 示 。 模 型 信息 中 可 以 看 到 模型 的 基本 信息 。 包 括 树 的 个 数 、 学 习 率 、 箱 数 、 最 大 和 最 小 树 节点 数 、 最 大 和 最 小 分 支 数 、 最 大 和 最 小 深度 等 信息 。PROLC 


GRADBOOST 也 提供 了 丰富 的 选项 用 于 灵活 设 定 这 些 参数 ， 比 如 选项 MAXBRANCH、MAXDEPTH、MINLEAFSIZE 等 。 同 时 AUTOTUNE 语 句 也 提供 了 丰富 的 选项 来 对 决策 树 的 参数 进行 调整 。 


模型 使 用 了 PARTITION 语 句 ， 指 定 _ PARTIND 列 用 于 划分 训练 数据 和 验证 数据 ， 所 以 在 模型 输出 中 可 以 看 到 一 共 读 取 了 6000 行 观测 ， 其 中 有 4201 行 观测 是 训练 数据 ，1799 行 观测 是 验证 数 


1048551767 


i or 70 | xo 
EEC 


图 6.24 GRADBOOST 模 型 输出 (1) 


下 面 的 输出 是 “变量 重要 性 ” 表 ， 如 图 6.25 所 示 ， 变 量 的 重要 性 按照 从 大 到 小 的 顺序 进行 排序 。 


最 后 是 “ 拟 合 统计 量 ” 表 ， 如 图 6.26 所 示 。PROC GARDBOOST 对 每 一 棵 树 均 计算 拟 合 统计 量 。 因 为 模型 使 用 了 选项 NTREES 的 默认 值 100， 所 以 在 输出 结果 表 中 看 到 的 是 100 棵 树 的 拟 合 统计 信息 。 这 
里 选取 前 十 行 和 最 后 十 行 数据 。 


oo| ooro | oosa | oore EC 
st] oore | oars | 027e | noase | oases | 0137 
s2 | omes | nosen | aaze|aoz| nose | oa 
os| oore7 | oosen | ozer | oo: | oases | 0x57 
| omae | oo | o0as | noss | n0660] 0137 
os| omea | nosen | 00257 | noas | n0655] oa 
6| oo | oo | o0ase | o04ss | ooes4 | 0.57 
Tr | oore | oow | oo2s7 | ooase | nosse | 0x38 
se | oor | oows | o0ase | nos | nosas | oa 
oo| oor | oo08 | oozez| oor | aoe37 | 0130 
100 | o0rre | o0ses | ozs7 | moase | oos34 | 030 


6.26 GRADBOOST 模 型 输出 (3) 


3. 支 持 向 量 机 模型 
SAS Viya 是 由 PROC SVMACHINE 来 实现 支持 向 量 机 的 分 析 的 ， 代 码 如 下 。 


例 13: 使 用 支持 向 量 机 进行 建 模 。 


proc svmachine data=mycas.smblmodel (where=(_partind_=1)); 
target bad/ level=nominal; 
input deling debtinc profitrate revenue yropen / level=interval; 
input creditlevel / level=nominal; 
kernel POLYNOMIAL; 
code file="SUSERDIR./svmachine_score.sas" ; 
run; 


运行 上 述 代码 ， 输 出 结果 如 图 6.27 所 示 。 


图 6.27 支持 向 量 机 模型 输出 (1) 


因为 支持 向 量 机 使 用 分 类 函数 进行 分 类 时 期 望 几何 间隔 最 大 ， 所 以 使 用 支持 向 量 机 进行 分 类 的 问题 到 最 后 就 变 成 了 分 类 函数 的 优化 问题 。 在 模型 输出 的 汇总 信息 中 可 以 看 到 ，PROC SVMACHINE 使 
的 是 内 点 法 (Interior Point) 进行 优化 求解 。 同 时 还 可 以 看 到 其 使 用 的 是 多 项 式 核 函 数 (Polynominal) 。 核 函数 在 支持 向 量 机 中 起 着 非常 重要 的 作用 ， 其 基本 作用 就 是 接受 两 个 低 维 空间 里 的 向 量 ， 来 计 
算出 经 过 某 个 变换 后 在 高 维 空间 里 的 向 量 内 积 值 。 核 函数 的 引入 避免 了 “ 维 数 灾难 ” ， 大 大 减少 了 计算 量 。 


同时 在 模型 信息 表 中 ， 还 可 以 看 到 惩罚 因子 为 1、 最 大 和 迭代 次 数 是 25、 容 差 的 值 为 1E-06。 


这 些 都 可 以 在 PROC SVMACHINE 语 句 中 设 定 ， 此 处 使 用 了 默认 值 。 


在 “训练 结果 ” 表 中 ， 可 以 看 到 权重 的 内 积 是 135.750， 偏 差 是 -0.23954， 支 持 向 量 的 个 数 为 785， 并 且 其 中 有 748 个 在 边界 上 。 模 型 使 用 了 5 个 连续 变量 和 1 个 离散 变量 ， 所 以 效应 数 为 6。 


然后 是 “迭代 历史 ” 表 ， 如 图 6.28 所 示 。 随 着 迭代 次 数 的 增加 ， 补 充 列 (Complementarity) 和 可 行 性 列 (Feasibility) 的 值 在 不 断 变 小 。 当 补充 列 (Complementarity) 的 值 小 于 设 定 的 容 差 
(Tolerance， 在 模型 信息 表 中 可 以 看 到 该 值 ) ， 或 者 迭代 次 数 超过 设 定 的 最 大 值 之 后 ， 和 迭代 停止 。 可 以 在 PROC SVMACHINE 语 句 中 设 定 选 项 TOLERANCE 和 MAXITER 的 值 。TOLERANCE 的 默认 值 为 1E- 
06，MAXITER 的 默认 值 为 25。 


Bethe 
pate | ae] ate 
[ol 1002364.3739 | 2529180.8794 
Eee 
163.30444432 | 0.0000194792 
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O.5107873533 | 6.7172832E-9 


0266905951 | 2.8317535E-9 
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0.0585391786 | 2 299469F-10 
1.751321E-10 
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0.0198414054 | 4.606227E-11 
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EEC 
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图 6.28 ”支持 向 量 机 模型 输出 (2) 


最 后 是 “ 误 分 类 矩阵 ”和 “ 拟 合 统计 量 ” 表 ， 如 图 6.29 所 示 。 拟 合 统计 量 表 的 结果 可 以 根据 误 分 类 和 矩阵 计算 出 来 。 


在 误 分 类 矩阵 表 中 ， 显 示 总 共有 837 个 观测 数据 被 判别 为 1，3364 个 观测 被 判别 为 0。 


被 正确 判别 为 1 的 观测 共有 674 个 ， 被 正确 判别 为 0 的 观测 共有 3306 个 。 所 以 准确 度 为 《674+3306) /4201) =94.74%。 根 据 该 矩阵 ， 我 们 也 可 以 计算 出 敏感 度 (Sensitivity， 又 称 覆 盖 率 ) 为 
674/837=0.8053， 和 特异 度 (specificity， 又 称 为 负 例 的 覆盖 率 ) 为 3306/3364=0.9828。 


在 拟 合 统计 量 表 中 可 以 看 到 这 些 统计 量 的 值 。 


一 个 相对 较 好 的 模型 应 该 是 误 判 率 低 ， 并 且 具 有 较 高 的 敏感 度 (sensitivity) 和 特异 度 (specificity) 。 


6.5.2 ”模型 的 评估 


本 节 讲 述 的 模型 评估 包括 两 个 方面 的 内 容 ， 具 体 如 下 。 


“ 单个 模型 的 模型 评估 。 


“ 单个 模型 的 评估 是 使 用 验证 数据 集 评估 由 训练 数据 集 建立 的 模型 。 


“ 一 个 好 的 模型 不 仅 会 在 训练 数据 集 上 有 很 好 的 拟 合 、 分 类 效果 (这 里 以 因 变 量 是 离散 的 分 类 模型 为 例 ) ， 还 要 求 在 验证 数据 集 上 也 有 着 类 似 的 效果 。 若 模型 在 验证 数据 集 上 的 分 类 效果 欠 佳 ， 就 需要 
考虑 重新 回 到 训练 数据 集 上 ， 对 模型 的 参数 进行 调整 (甚至 可 以 尝试 不 同 的 建 模 方法 ) 和 验证 。 因 此 ， 从 这 个 角度 来 看 ， 模 型 的 建立 与 评估 可 能 是 一 个 反复 的 过 程 。 


:多 个 模型 的 模型 评估 。 


“ 对 使 用 不 同 建 模 方法 建立 的 模型 ， 需 要 对 模型 从 准确 性 、 稳 定性 、 可 解释 性 等 不 同方 面 去 评估 。 模 型 的 准确 性 评估 ， 对 分 类 模型 和 回归 模型 也 有 不 同 的 指标 来 度量 。 对 分 类 模型 来 说 ， 常 用 的 方法 有 
ROC 曲 线 、Lift 曲 线 、AUC、 基 尼 系 数 等 。 对 回归 模型 来 讲 ， 常 用 的 指标 有 均 方 根 误差 (RMSE) 、 相 对 平方 误差 (RSE) 、 平 均 绝对 误差 (MAE) 。 


- SAS Viya 中 ，PROC ASSESS 可 以 生成 统计 量 数据 。 


下 面 就 来 开始 模型 的 评估 。 


1. 单 个 模型 的 评估 


评估 一 个 模型 好 坏 的 方法 有 很 多 ， 可 以 从 以 下 几 个 方面 对 模型 进行 评估 。 


“ 统计 预测 结果 。 统 计 验 证 数据 集中 目标 变量 的 取 值 (已 知 ) 同 模型 预测 出 来 的 目标 变量 的 取 值 之 异同 数 ， 并 计算 出 一 个 预测 正确 或 错误 的 比例 。 


:LIFT 图 。LIFT 图 可 以 直观 地 显示 使 用 预测 模型 相对 于 不 使 用 《随机 猜测 ) 的 改进 。 


下 面 以 LOGISTIC 模 型 为 例 ， 进 行 单个 模型 的 评估 。 


例 14: 对 模型 预测 结果 进行 统计 ， 评 估 前 面 建立 的 LOGISTIC 回 归 模 型 。 


首先 ， 利 用 例 11 生 成 的 LOGISTIC 模 型 代码 logselect_score.sas 对 数据 mycas.smblmodel 进 行 模型 评分 。 代 码 如 下 所 示 : 


代码 6.1 执行 LOGISTIC 模 型 代码 对 模型 数据 进行 评分 


/* 执 行 模型 代码 ,对 模型 数据 进行 评分 */ 

data mycas.scored logistic; 
set mycas.smblmodel; 
include "&USERDIR. /logselect_score.sas"; 
p_bad1=p_bad; ~ 
p_bad0=1-p_bad; 
if p badl>p bad0 then I_BAD=1; 
else I_BAD=0; 

run; ~ 


在 详细 介绍 代码 6.1 的 运行 结果 之 前 ， 请 先 看 一 下 PROC LOGISTIC 生 成 的 评分 代码 logselect_score.sas。 其 全 部 内 容 如 下 : 


代码 6.2 PROC LOGISTIC 生 成 的 评分 代码 


1 He TESE O SEEE EEEE 
2 Generated SAS Scoring Code 

3 Date: 24May2017:10:37:09 
et */ 
5 

6 drop badval linp temp i jv 

7 _badval_ = OF 7 

8 linp = 0; 

9 “temp = 0; 

igo 2E = 0; 

11 5 = 0; 

12 ~S 

13 array xrow 0 0 {9} _temporary ; 

14 array beta 0 0 {9} “temporary ( -2.34396358137463 
15 -1.06598646464817 

16 0.26843421241513 

17 0.97793817414062 

18 0.43730725958479 

19 0.15747790560503 

20 -1.33905362342827 

21 -0.00003148139329 

22 -0.30452121469744) ; 


23 array _xtmp 0 0 {9} _temporary ; 
24 array _xcomp_0_0_{9} _temporary ; 
25 array _xclas_0_0_{9} _temporary ; 


21 length _CREDITLEVEL $12; drop _CREDITLEVEL ; 
28 _CREDITLEVEL = left (trim (put (CREDITLEVEL, BEST12.))); 
29 if missing (YROPEN) 


30 or missing (REVENUE) 

31 or missing (PROFITRATE) 

32 or missing (DELINQ) 

33: or missing (DEBTINC) 

34 then do; 

35 _badval_ = 1; 

36 goto skip 0 0; 

37 a 

38 

39 9; = 0; end; 
40 9; = 0; end; 
41 9; = 0; end; 
42 9; = 0; end; 
43 

44 _xtmp_0_0_[1] = 1; 

45 


46 _temp =1; 
47 do i =1 to 3; _xtmp_0 0_{_i +1} = 0; end; 


49 when ('1') do; 

50 _xtmp_0_0_[2] = 1; 

51 end; 

52 when ('2') do; 

53 do i = 0 to 2; _xtmp 00 [i +2] = -1; end; 
54 end; 

55 when ('3') do; 

56 xtmp_0_0 [3] = 1; 

57 end; 

58 when ('4') do; 


59 _xtmp_0_0_[4] = 1; 


60 end; 


61 otherwise do; badval = 1; goto skip 0 0; end; 

62 end; 

63 

64 _xtmp_0_0_[5] = DELINQ; 

65 

66 _xtmp_0_0_[6] = DEBTINC; 

67 

68 _xtmp_0_0_[7] = PROFITRATE; 

69 

70 _xtmp_0_0_[8] = REVENUE; 

71 

72  _xtmp_0_0_[9] = YROPEN; 

73 

74 do 0_0_{_j_+0}; end; 
75 do 0_0_{_j_+1}; end; 
76 do 0_0_{_j_+4}; end; 
11 do 0 .0 {Jj +5}; end; 
78 do = _xtmp_0_0_{_j_+6}; end; 
79: do = _xtmp 0 0 {_j_+7}; end; 
80 do = _xtmp_0_0_{_j_+8}; end; 
81 

82 do 

83 beta 0 0 {i}; 

84 end; 

85 


86 skip 0 0: 
87 label P_BAD = 'Predicted: BAD'; 
88 if (_badval_ eq 0) and not missing(_linp_) then do; 


89 if (_linp_ > 0) then do; 

90 P BAD = 1 / (ltexp(- linp )); 

91 end; else do; ~ 

92 P BAD = exp( linp ) / (l+exp(_linp )); 
93 end; G 4 
94 end; else doz 

95 _linp_ a 

96 PI BAD = .; 

97 end; 


注意 为 了 方便 解释 评分 代码 ， 在 代码 6.2 中 每 一 行 最 左 侧 增加 了 行 数 标识 。 在 实际 PROC LOGISTIC 生 成 的 评分 代码 中 ， 没 有 这 些 标识 数字 。 


在 代码 6.2 中 ， 首 先 对 变量 进行 初始 化 。 其 中 变量 badval 用 于 判断 观测 是 否 有 效 。 如 果 变 量 缺 失 ， 则 该 观测 为 无 效 观测 。 无 论 是 连续 性 变量 还 是 分 类 变量 ， 只 要 其 中 一 个 变量 的 值 缺 失 ， 则 认为 该 观测 
无 效 。 代 码 6.2 的 第 29 到 37 行 ， 是 对 连续 变量 YROPEN、REVENUE、PROFITRATE、DELINQ、DEBTINC 是 否 缺失 的 判断 ， 第 61 行 ， 是 对 分 类 变量 CREDITLEVEL 是 否 缺 失 的 判断 。 变 量 _linp_ 用 来 进行 评 
分 ,第 82 行 到 84 行 ， 是 对 该 变量 进行 赋值 ， 第 90 行 和 92 行 是 使 用 该 变量 对 观测 进行 评分 ， 后面 对 变量 linp_ 还 有 更 详细 的 介绍 。 


drop badval linp temp i ji? 


badval = 07 
“iog. S'O; 
temp =0; 
i =.0; 
Be = 0; 


中 包括 连续 变量 的 参数 、 分 类 


然后 ， 定 义 了 数组 用 来 存放 变量 的 值 。 其 中 ， 数 组 beta 0 0 用 于 存放 PROC LOGISITIC 生 成 的 参数 估计 的 值 ， 模 型 PROC LOGISTIC 的 运行 结果 包含 了 该 部 分 的 内 容 。 
变量 的 参数 和 截 距 的 参数 。 代 码 6.2 的 第 83 行 ， 使 用 该 参数 beta_0 0 的 值 对 观测 进行 评分 ， 代 码 为 “linp_+_xrow 0 0 {i}* betaO0O0{i};". 


array _xrow_0_0_{9} _temporary ; 

array “beta_0_0_{9} _temporary_ ( -2.34396358137463 
-1.06598646464817 
0.26843421241513 
0.97793817414062 
0.43730725958479 
0.15747790560503 
-1.33905362342827 
-0.00003148139329 
-0.30452121469744) ; 

array _xtmp_0_0_{9} _temporary 7 

array _xcomp 0 0 {9} temporary ; 

array elas 0_0_{9} “temporary ; 


紧 接 着 ， 检 查 将 要 进行 评分 的 观测 的 连续 变量 ， 看 其 是 否 有 缺失 值 ， 只 要 其 中 一 个 有 缺失 值 ， 则 变量 badval 设置 为 1， 然 后 执行 “goto skip_0_ 0” 语句 ， 跳 转 到 评分 部 分 代码 ， 执 行 语 
句 “P_BAD=.; ”， 将 违约 评分 概率 设置 为 缺失 值 。 


length CREDITLEVEL $12; drop _CREDITLEVEL ; 
CREDITLEVEL = left (trim(put (CREDITLEVEL, BEST12.))); 
if missing (YROPEN) 
or missing (REVENUE) 
or missing (PROFITRATE) 
or missing (DELINQ) 
or missing (DEBTINC) 
then do; 
badval_ = 1; 
goto skip 0 0; 
end; 


如 果 连 续 变量 不 存在 缺失 值 ， 那 么 代码 6.2 的 第 47 到 72 行 ， 就 会 给 数组 _ xtmp_0_0 的 元 素 赋值 。 首 先是 对 xtmp_0_0_[1] 赋 值 为 1，_xtmp_0 0_[2]、_xtmp_0 0 [3]、_xtmp_0 0 [外 设 定 初始 值 为 0。 当 
分 类 变量 CREDITLEVEL 的 值 为 1 时 ，_xtmp_0_0_[2] 设 值 为 1。 当 _CREDITLEVEL 的 值 为 2 时 ,执行 语句 “do _i_ =0 to 2; xtmp_0 0 [Li +2]=-1; end; ”， 并 为 xtmp_0 0 [2]、xtmp_0 0 [3], 


_xtmp_0 0 [4 赋值 为 -1。 当 然 了 ， 如 果 变 量 CREDITLEVEL 的 值 缺 失 ， 则 与 处 理 连 续 变量 的 缺失 值 相 同 ， 跳 转 到 评分 部 分 代码 ”badval_=1; goto skip_0_0; " , 执行 语句 “P_BAD=.; ”， 将 违约 概率 
设置 为 缺失 值 。 


select (_CREDITLEVEL_)7 
when ('1') do; 
xtmp 0 0 [2] = 1; 
end; ay 
when ('2') do; 
do _i_= 0 to 2; _xtmp 00 [i +2] = -1; end; 
end; 
when ('3') do; 
xtmp_0_0_[3] = 1; 
endy a 
when ('4') do; 
xtmp 0 0 [4] = 1; 
end; A 
otherwise do; _badval_ = 1; goto skip_0_0; end; 
end; 


接 下 来 ， 取 观测 中 连续 变量 的 值 ， 赋 值 给 数组 元 素 xtmp_0 0 [5]~_xtmp_0_ 0 [9]， 代 码 如 下 : 


_xtmp 0 0_ [5] 
_xtmp 0 0 [6] 


DELINQ; 
DEBTINC; 


xtmp 0 0 [7] = PROFITRATE; 
[8] = REVENUE; 
O [9] = YROPEN; 


当 所 有 的 _xtmp_0_0 的 元 素 都 已 经 被 赋值 之 后 ， 执 行 如 下 代码 ， 利 用 数组 xtmp_0 0 为 数组 xrow 0 0 赋值 。 其 中 代码 “do j =1 to 3; xrow_00{j +1}=_xtmp_00{j+1}; end; ”是 循环 为 
数组 元 素 xrow 0 0 [2], _xrow_0_0 [3], _xrow_0 0 [4 进行 赋值 ， 代 码 如 下 : 


do _j =1 to 1; _xrow_0 0 {_j_+0} = xtmp 0 0 { j +0}; end; 
do j=1 to 3; “xrow_0_0_{_j_+1} = xtmp 00{] +1}; end; 
do j=1 to 1; _xrow 0 0 { j +4} = _xtmp 0 0 {_j +4}; end; 
do j=1 to 1; “xrow_0_0_{_j_+5} = _xtmp_0_0_{_j_+5}; end; 
do _j =1 to 1; _xrow 0 0 { _j_ +6} = _xtmp_0 0 {_j +6}; end; 
do j=1 to 1; “xrow_0_0_{_j_+7} = _xtmp_0_0_{_j_+7}; end; 
do _j_=1 to 1; _xrow_0_0_{_j_+8} = _xtmp_0_0_{_j_+8}; end; 


到 现在 为 止 ， 已 经 准备 好 了 数组 xrow_0_0 和 _beta_0 0 中 元 素 的 值 。 然 后 执行 下 面 的 循环 ， 将 数组 xrow_0 0 中 的 值 和 参数 beta 0 0 的 值 相 乘 ， 为 变量 inp 赋值， 代码 如 下 : 


end; 


上 面 这 个 循环 ， 其 实 就 是 根据 数学 表达 式 

LN(p/(1—p))=—-2.3439-1.0659* CREDITLEVEL(1)+0.2684*CREDITLEVEL(3) 
+0.9779* CREDITLEVEL(4)+0.4373*DELINQ+0.1575*DEBTINC 
~1.3391*PROFITRATE-0.00003*REVENUE—0.3045*YROPEN 


变量 linp_ 进 行 赋值 。 


最 后 ， 使 用 变量 linp 的 值 ， 进 行 指数 运算 ， 得 到 违约 概率 。 


skip 0 0: 
label P BAD = 'Predicted: BAD'; 
if (_badval_ eq 0) and not missing(_linp_) then do; 
if ( linp > 0) then do; 
P_BAD = 1 / (ltexp(- linp )); 
end; else do; 
P_BAD = exp( linp ) / (lt+texp(_linp_)); 
end; 
end; else do; 
linp = .7 
P_BAD= .; 
end; — 


在 介绍 了 PROC LOGISTIC 生 产 的 评分 代码 logselect_score.sas 之 后 ， 下 面 就 来 运行 代码 6.1 对 数据 集 mycas.smblmodel 进 行 评分 。 对 原始 数据 集中 的 每 一 条 观测 ， 根 据 模 型 可 以 计算 出 该 观测 属 
于 “BAD=1” 的 概率 ， 即 违约 概率 P_BAD， 同 时 还 可 以 计算 出 未 违约 概率 为 1-P_BAD。 如 果 违 约 概率 大 于 未 违约 概率 ， 则 判别 为 违约 ， 设 置 新 增 列 |_BAD 的 值 为 1， 否 则 该 列 的 值 为 0。 


然后 ， 分 别 统计 模型 在 训练 数据 集 及 验证 数据 集 上 的 预测 分 类 效果 ， 执 行 代码 如 下 : 


/* 单 个 模型 的 评估 ,生成 交叉 表 ，partind_ = 为 训练 数据 ，partind -2 为 验证 数据 x/ 
proc cas; 

action simple.crossTab result=outputdata_1 / 

acrossBy=TRUE association=true T 

row="BAD" col="I_Bad" chisq=TRUE 

table={caslib="casuser", name="scored_logistic", 


vars={ {name="BAD"}, {name="I_BAD"}}, 
groupby={ {name="_partind_"}}} 
nthreads=4; 


print outputdata_1; 
run; 


上 述 程序 的 执行 结果 如 图 6.30 所 示 。 


图 6.30 ”单个 模型 验证 


从 图 6.30 中 可 以 看 出 ， 模 型 在 训练 数据 集 (_Partind_=1) 及 验证 数据 集 (_Partind_=0) 上 的 “表现 ”是 类 似 的 。 以 两 个 表格 的 BAD 取 值 为 0 的 单元 格 为 例 ， 在 训练 数据 集中 ， 有 3364 条 观测 变量 BAD 
的 取 值 为 0， 经 过 模型 计算 后 ， 有 3275 条 观测 的 归 类 是 正确 的 ， 所 占 的 比例 为 97.35%; 此 外 ， 有 89 条 观测 的 归 类 是 错误 的 ， 所 占 的 比例 为 2.659%6。 对 比 验证 数据 中 ， 共 有 1441 条 观测 变量 BAD 的 取 值 为 0， 
根据 模型 预测 ， 有 1405 条 观测 的 归 类 是 正确 的 ， 所 占 的 比例 为 97.50%; 此 外 ， 有 36 条 观测 的 归 类 是 错误 的 ， 比 例 为 2.50%。 从 预测 分 类 效果 的 角度 来 看 ， 由 训练 数据 集 得 到 的 模型 在 验证 数据 集 上 有 着 类 似 
的 效果 ， 即 模型 适用 于 验证 数据 集 。 


接 下 来 ， 我 们 从 另外 一 个 角度 ， 即 LIFT 图 ， 来 评估 前 面 建立 起 的 LOGISTIC 模 型 。PROC ASSESS 用 于 生成 LIFT 曲 线 作 图 用 到 的 数据 。 首 先 来 看 一 下 PROC ASSESS 的 语法 : 


PROC ASSESS < 选项 > ; 
INPUT 变 量 ， 
TARGET 变 量 < /选项 > ; 
FITSTAT PVAR= 变 量 / PEVENT=" 事 件 值 ”<DLM=" 分 隔 符 "> ; 


FREQ 变 量 ; 
BY 变量 ; 
RUN; 


对 其 中 一 些 关键 语句 的 介绍 具体 如 下 。 


- PROC ASSESS 语 和 句 。 其 语法 为 : 


PROC ASSESS < 选项 >; 


» DATA=CAS i8 4$ CAS 4: 指定 需要 进行 模型 评估 的 数据 集 。 

- FITSTATOUT=CAS 逻 辑 库 .CAS 表 : 指定 模型 统计 数据 输出 的 数据 集 。 如 果 指 定 了 该 选项 ， 则 在 PROC ASSESS 的 输出 结果 中 ， 不 会 显示 该 数据 的 ODS 表 。 

- LIFTOUT=CAS 38 4# B.CAS 4: 指定 模型 LIFT 曲 线 使 用 的 数据 输出 的 数据 集 。 如 果 指 定 了 该 选项 ， 则 在 PROC ASSESS 的 输出 结果 中 ， 不 会 显示 该 数据 的 ODS 表 。 
- NBINS= 分 箱 数 : 指定 在 LIFT 计 算 中 使 用 的 分 箱 数 ， 其 中 分 箱 数 必须 是 整数 且 大 于 等 于 2。NBINS 的 默认 值 为 20。 

“NCUTS= 分 切 数 : 指定 在 ROC 计 算 中 使 用 的 分 切 数 ， 其 中 分 切 数 必须 是 整数 且 大 于 或 等 于 2。NCUTS 的 默认 值 为 100。 

- ROCOUT=CAS 这 辑 库 .CAS 表 : 指定 模型 ROC 曲 线 使 用 的 数据 输出 的 数据 集 。 如 果 指 定 了 该 选项 ， 则 在 PROC ASSESS 的 输出 结果 中 ， 不 会 显示 该 数据 的 ODS 表 。 


BYA: BY 语句 用 于 指定 在 预测 模型 中 使 用 的 分 区 变量 。 


- FITSTAT#& 4]. FITSTAT#& 4) 897815 A: 


FITSTAT PVAR= 变 量 / PEVENT=" 事 件 值 ” <DLM=" 分 隔 符 " > ; 


“ PVAR= 变 量 : 设置 INPUT 语 句 指定 之 外 的 模型 预测 包含 后 验 概率 的 变量 ， 如 果 在 INPUT 语 和 句 中 已 经 指定 了 ， 则 忽略 该 变量 。 


- PEVENT= 事 件 值 : 设置 PVAR 指 定 变量 对 应 的 事件 值 。 


“INPUT 语句 。INPUT 语 白 指 定 在 模型 评估 中 要 分 析 的 变量 的 名 称 。 语 法 为 : 


INPUT 变量 ; 
VAR 变量 ; 


:TARGET 语句 : 指定 该 语句 模型 的 响应 变量 。 其 语法 为 : 


TARGET 变量 < /选项 > ; 


该 语句 中 可 以 使 用 的 选项 及 说 明 如 下 。 


. LEVEL=INTERVAL|NOMINAL: INTERVAL 指 明 响 应 变量 为 连续 变量 ，NOMINAL 指 明 相应 变量 为 分 类 变量 。 


.EVENT=“ 响 应 值 ”: 在 LEVEL 选 项 为 NOMINAL 时 ， 用 EVENT 选 项 指定 响应 变量 的 值 。 


PROC ASSESS 的 具体 语法 ， 请 参考 SAS Viya 帮 助 文档 。 


例 15: 使 用 PROC ASSESS 评 估 单 个 模型 。 


/* 单 个 模型 的 评估 ,生成 1ift 曲 线 */ 

proc assess data=mycas.scored_logistic LIFTOUT=mycas.logit_sig_liftinfo; 
input p badl; 

target bad / level=nominal event='1'; 

fitstat pvar=p_bad0/ pevent='0'; 

by _partind ; ~ 

run; 


从 前 面 的 数据 集 mycas.scored_logistic 中 ， 我 们 可 以 看 出 每 一 条 观测 都 有 一 定 的 概率 属于 “BAD=1” ( 即 变 量 BAD 的 取 值 为 1) ， 其 中 ， 变 量 为 P BAD1 的 取 值 即 为 概率 的 大 小 。PROC ASSESS 将 数据 
集 mycas.scored logistic 按 照 变量 P_1 的 取 值 从 大 到 小 进行 排序 ， 将 训练 数据 集 (_partind_=1) 分 成 20 组 。 考 虑 第 1 组 ,该 组 内 变量 P_1 的 取 值 较 大 。 如 果 模 型 是 准确 的 ， 那 么 在 实际 中 ， 该 组 中 BAD 取 值 


2i x100 


为 1 的 观测 比例 也 应 该 会 比较 多 ， 记 该 比例 为 p1。 如 果 不 使 用 模型 预测 (随机 预测 ) ， 那 么 BAD 取 值 为 1 的 概 pP2 应 该 与 原始 数据 集中 BAD 的 比例 一 致 。 nseri) 该 值 越 大 ， 则 说 明 在 该 组 内 的 模型 预 
测 效果 越 好 。 在 PROC ASSESS 生 成 的 LIFT 数 据 mycas.logit_sig_liftinfo 中 ， 选 择 训练 数据 的 前 10 行 ， 和 部 分 列 _PartiInd、_Depth_、_NObs 、_Lift 进行 输出 ， 如 图 6.31 所 示 。 
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图 6.31 PROC ASSES 输 出 的 LIFT 数 据 


运行 如 下 代码 ， 进 行 LIFT 曲 线 作 | 


IR] 


例 16: 使 用 PROC ASSESS 输 出 数据 作 LIFT 图 。 


/x* 根 据 Partind 设置 生成 的 评估 数据 ,使 LIFT 曲 线 易 读 */ 
data logit sig liftinfo; 

set mycas.logit sig liftinfo; 

if partind =2 then Data=' 验 证 数据 '; 

else Data=' 训 练 数据 '; 
run; 


/* 运 行 proc sgplot, 画 LIFT 曲 线 */ 
proc sgplot data=logit sig liftinfo; 

title "Lift 曲 线 (训练 数据 vs .验证 数据 ) "7 

yaxis label=' ' grid; 

series x= depth y=_lift_ / group=Data markers markerattrs=(symbol=circlefilled) ; 
run; 


上 述 程序 的 运行 结果 如 图 6.32 所 示 。 
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图 6.32 ”单个 模型 训练 数据 和 验证 数据 的 LIFT 图 


从 LIFTI 


IR] 


(6.32) 中 可 以 看 出 以 下 几 个 方面 。 


“ 模型 从 左 到 右 呈 下 降 趋 势 ， 使 用 模型 比 不 使 用 模型 的 效果 要 好 。 例 如 ， 从 训练 数据 集 的 LIFT 图 中 可 以 看 出 ， 在 第 1 组 ，LIFT 值 约 为 5.0， 说 明 使 用 模型 辨别 BAD=1 的 效率 是 不 使 用 模型 效率 的 5.0 倍 。 


“ 训练 数据 集 的 LIFT 图 与 验证 数据 集 的 LIFT 图 趋势 一 样 、 形 状 类 似 。 这 说 明 ， 由 训练 数据 集 建立 起 来 的 模型 也 适用 于 验证 数据 集 。 这 与 我 们 先前 根据 统计 分 类 效果 得 出 的 结论 是 一 致 的 。 


综合 单个 模型 的 分 析 结果 ， 从 模型 的 拟 合 效果 、 数 据 的 预测 效果 ， 可 以 认为 该 模型 适合 用 于 下 一 步 的 实施 。 


2. 多 个 模型 的 评估 


在 实际 数据 分 析 过 程 中 ， 通 常 不 只 是 建立 一 个 模型 ， 而 是 建立 多 个 备 选 模型 。 随 之 而 来 的 问题 就 是 ， 如 何在 备 选 模型 之 间 进 行 选择 。 正 如 前 面 所 述 ， 对 于 回归 模型 ， 常 用 的 指标 有 均 方 根 误差 
(RMSE) 、 相 对 平方 误差 (RSE) 、 平 均 绝对 误差 (MAE) ; 对 于 分 类 模型 ， 我 们 可 以 根据 LIFT 曲 线 、ROC 曲 线 、 准 确 度 (ACC) 、 基 尼 系 数 等 指标 来 进行 模型 评估 。 


下 面 就 来 对 前 面 建立 的 分 类 模型 (LOGISTIC 模 型 、 梯 度 提升 决策 树 模 型 和 支持 向 量 机 模型 ) 进行 评估 ， 分 别 通过 LIFT 曲 线 和 ROC 曲 线 来 评估 模型 的 准确 度 。LIFT 的 基本 原理 在 前 
来 介绍 一 下 ROC 曲 线 的 作 图 原理 。 


m 
R 
cs 
才 
ET 


对 于 分 类 模型 ， 模 型 的 优 劣 在 于 能 否 正确 区 分 目标 变量 所 在 的 分 类 。 以 (0, 1) 分 类 模型 为 例 ， 基 于 分 类 正确 与 否 ， 有 如 下 几 种 情况 。 
: 0->0: 实际 是 0， 预 测 成 0; 预测 正确 (True) o 
“ 0->1: 实际 是 0， 预 测 成 1; 预测 错误 (False) 。 


“ 1->0: 实际 是 1， 预 测 成 0; 预测 错误 (False) 。 


‘21, MMR; 预测 正确 (True) 。 
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在 (0，1) 分 类 模型 中 ， 通 常 将 目标 变量 为 0 的 观测 称 为 负 例 (Negative) ， 目 标 变量 为 1 的 观测 称 为 正 例 (Positive) ， 根 据 上 述 预 测 正确 与 否 的 结果 ， 可 以 得 到 最 基本 的 几 个 预测 指标 ， 具 体 如 下 。 


< 0->0: 0 被 正确 (True) AAO (APJ, Negative) ; TNs 
- 0->1: 0 被 错误 (Fase) 预测 为 1 ( 正 例 ，Positive) ; FP. 
“ 1->0: 1 被 错误 (False) FRM AO (AP, Negative) ; FN。 
-1->1: 1 被 正确 (True) 预测 为 1 ( 正 例 ，Positive) ; TP. 
然后 ， 进 一 步 定义 以 下 指标 。 


“ 正 例 的 覆盖 率 (Sensitivity) : 正确 预测 到 1 ( 正 例 ) 的 个 数 / 实 际 上 1 的 总 数 。 简 写 为 TPR (Ture Positive Rate) 。 以 信用 卡 违约 分 析 为 例 ，TPR 越 高 ， 找 到 违约 客户 的 准确 率 就 越 高 。 


: 负 例 的 履 盖 率 (Specificity) : 正确 预测 到 0 ( 负 例 ) 的 个 数 /实际 上 0 的 总 数 。 简 写 为 TNR (Truc Negative Rate) 。 在 信用 卡 违约 分 析 中 ，TNR 越 高 ， 表 示 预 测 未 违约 的 客户 越 准确 。 以 Sensitivity 为 纵 坐 
标 ，1-Specificity 为 横 坐 标 ， 得 到 ROC 曲 线 。 坐 标点 (0, 1) 表示 负 例 的 覆盖 率 Specificity 为 1， 正 例 的 履 盖 率 Sensitivity 的 值 也 是 1。 这 是 最 理想 的 情况 ， 表 明 所 有 的 正 例 均 被 准确 命中 ， 同 时 所 有 的 负 例 也 被 准 
确 命 中 ， 没 有 任何 错误 。 理 想 情况 下 ，ROC 曲 线 快 速 走向 左上 ， 表 示 模 型 能 够 准确 预测 数据 。 


在 SAS Viya 中 ， 上 述 所 有 的 指标 都 可 以 通过 运行 PROC ASSESS 来 获取 到 ， 如 图 6.33 所 示 


图 6.33 的 结果 可 以 通过 运行 如 下 代码 来 得 到 : 


proc assess data=mycas.scored_logistic; 
input p badl; 
target bad / level=nominal event='1'; 
fitstat pvar=p_bad0/ pevent='0'; 
by _partind_; 


run; 


同时 ， 在 图 6.33 中 还 可 以 看 到 PROC ASSESS 生 成 的 其 他 性 能 指标 ， 具 体 如 下 。 
© ACC (Accuracy) 准确 率 : 是 预测 正确 的 数 占 样 本 数 的 比例 。ACC 越 高 ， 则 说 明 该 模型 预测 越 准确 。 


- AUC (Area Under the Curve) : 是 ROC 曲 线 下 面积 经 常用 作 衡 量 分 类 模型 质量 的 指标 。 随 机 分 类 的 AUC 为 0.5， 而 完美 分 类 的 AUC 等 于 1。 在 实践 中 ， 大 多 数 分 类 模型 的 AUC 介 于 0.5 和 1 之 间 。 
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Op 


0.405758 
0.446816 


0.476162 
0.506055 
0.942652 0.522586 
0.936679 L - 0.544067 
0.935484 
0.929510 | 0.799049 | 0.825042 


+ 


时 时 时 时 里 上 


+ 


6.33 PROC ASSESS 输 出 的 ROC 数 据 


* GINI 基 尼 系 数 : 若 基尼 系数 大 于 60%， 就 算 好 模型 。Gini=2*AUC-1。 


下 面 开始 对 不 同 的 模型 进行 模型 评估 的 数据 准备 。 


例 17: 运行 PROC ASSESS 对 不 同 模型 进行 评估 。 


/* 运 行 Logistic 模 型 代码 ,对 模型 数据 进行 评分 */ 
data mycas.scored logistic(drop=p bad); 
set mycas.smblmodel; 
sinclude "&USERDIR./logselect_score.sas"; 
model ="Logistic"; 
p_bad1=p_bad; 
p_bad0=1-p_bad; 
if p badl>p bad0 then I _BAD='1'; 
else I_BAD='0'; ~ 
run; 


/* 运 行 支持 向 量 机 模型 代码 , 对 模型 数据 进行 评分 */ 

data mycas.scored_svmachine(drop=_p_ _warn_); 
set mycas.smblmodel; 
sinclude "&USERDIR./svmachine_score.sas"; 
model="Svmachine"; 

run; 


/* 运 行 梯度 提升 决策 树 模型 代码 , 对 模型 数据 进行 评分 */ 
data mycas.scored_gradboost; 
set mycas.smblmodel; 
sinclude "&USERDIR./gradboost_score.sas"; 
model="Gradboost"; 
run; 


/* 将 评分 后 的 数据 合并 , 为 模型 评分 准备 数据 */ 
data mycas.all_scored_data; 
set mycas.scored_gradboost (where=(_partind_=2) ) 
mycas.scored_svmachine (where=(_partind_=2)) 
mycas .Scored_ logistic (where=(_partind_=2)); 
run; 


/* 运 行 PROC ASSESS, 对 模型 进行 评估 */ 

proc assess data=mycas.all_scored_data 
ROCOUT=mycas.all_rocinfo 
LIFTOUT=mycas.all_liftinfo; 
input p badl; 
target bad / level=nominal event='1'; 
fitstat pvar=p_bad0/ pevent='0'; 
by model; 

run; 


/* 将 CASLIB 中 的 数据 复制 到 Workspace server, 为 画图 做 准备 */ 
data all rocinfo; 
set mycas.all rocinfo; 
run; 
data all liftinfo; 
set mycas.all 1iftinfo; 
run; 


基于 以 上 生成 的 模型 评估 数据 ， 生 成 LIFT 和 ROC 图 ， 代 码 如 下 。 


例 18: 对 多 模型 评估 结果 生成 ROC 和 LIFT 曲 线 。 


ods graphics on; 

/* 作 图 , ROC 曲线 */ 

proc sgplot data=all rocinfo aspect=1; 
title "ROC 曲 线 (使 用 验证 数据 ) "7 
xaxis values=(0 to 1 by 0.25) grid offsetmin=.05 offsetmax=.05; 
yaxis values=(0 to 1 by 0.25) grid offsetmin=.05 offsetmax=.05; 
lineparm x=0 y=0 slope=1 / transparency=.7; 
series x=_fpr_ y=_sensitivity_ / group=model; 


run; 


/*AUC 数 据 输出 */ 
title "AUC (使 用 验证 数据 )"; 
proc sql; 


select distinct model, _c_ as AUC from all rocinfo order by _c_ desc; 
quit; 


/* 作 图 ,Lift 曲 线 */ 

proc sgplot data=all liftinfo; 
title "Lift 曲 线 ( 便 用 验证 数据 ) "7 
yaxis label=' ' grid; 
series x= depth y=_lift_ / group=model markers markerattrs=(symbol=circlefilled) ; 

run; 


ods graphics off; 


生成 的 ROC 曲 线 、AUC 值 和 LIFT 曲 线 分 别 如 图 6.34 到 图 6.36 所 示 。 


ROC 曲线 (使 用 验证 数据 ) 
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图 6.34 ”多 模型 评估 ROC 曲 线 


Lift 曲线 (使 用 验证 数据 ) 


0 20 40 60 80 100 
_Depth_ 


model -——#— Logistic——#— gradboost ——-*—— svmachine 
图 6.36 “多 模型 评估 LIFT 曲 线 


结论 
: ROC 曲 线 中 ， 三 个 模型 的 趋势 相同 。 梯 度 提升 决策 树 模型 的 ROC 曲 线 在 其 他 两 个 模型 的 上 方 ， 表 现 略 好 于 其 他 两 个 模型 。 
- AUC 结 果 中 ， 按 照 AUC 值 从 大 到 小 进行 排序 ， 可 以 看 出 梯度 提升 决策 树 模型 的 AUC 为 0.98， 支 持 向 量 机 模型 的 AUC 值 稍 次 之 ， 为 0.96。Logistic 模 型 为 0.955。 因 此 梯度 提升 决策 树 模型 最 优 。 


:在 Lift 曲 线 中 ， 三 个 模型 的 趋势 一 致 、 形 状 类 似 。 在 5%、10%、15%、20% 的 位 置 ， 梯 度 提 升 决策 树 均 处 于 其 他 两 个 模型 的 上 方 ， 优 势 比较 明显 。 因 此 梯度 提升 决策 树 模型 有 较 好 的 提升 效果 。 


综 上 所 述 ， 梯 度 提升 决策 树 有 较 好 的 预测 效果 。 


6.5.3 ”模型 的 实施 


{ESAS Viya， 如 果 使 用 了 语句 CODE， 则 会 自动 生成 模型 代码 。 我 们 可 以 利用 模型 代码 对 数据 进行 模型 的 实施 。 


比如 ， 基 于 上 述 模型 评估 的 结果 ， 我 们 认为 梯度 提升 模型 为 最 优 模型 ， 实 施 代码 如 下 : 


data mycas.scored_gradboost; 

set mycas.smblmodel; 

sinclude "&USERDIR./gradboost_score.sas"; 
run; 


打开 生成 的 数据 集 ， 可 以 看 到 最 后 的 分 类 结果 。 如 图 6.37 所 示 。 
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图 6.37 梯度 提升 模型 输出 结果 


6.6 本章 小 结 


SAS Viya 是 基于 内 存 的 分 布 式 多 线程 高 性 能 数据 分 析 平 台 ，SAS Viya 对 数据 挖 气 和 数据 分 析 工 具 进行 了 重新 编写 。 本 章 介绍 了 如 何 利 


这 些 最 新 的 工 


在 SAS Viya 中 进行 数据 挖掘 及 其 一 般 流 程 。 本 章 


介绍 了 如 何 确定 商业 问题 、 准 备 数据 、 对 数据 进行 探索 加 工 、 模 型 的 建立 ， 以 及 评估 与 实施 。 为 了 使 大 家 更 容易 理解 这 一 过 程 ， 我 们 使 用 了 一 个 例子 贯穿 整个 过 程 。 


需要 指出 的 是 ， 并 不 是 每 一 个 项 目 都 必须 经 过 或 局 限于 这 些 步 又， 步骤 之 间 的 顺序 也 是 灵活 的 。 


第 7 章 SAS Viya 与 SAS 9 执行 环境 的 交互 


{ESAS Viya 之 前 ，SAS 的 产品 和 解决 方案 几乎 都 是 基于 SAS 9 平台 的 。 历 经 十 多 年 的 发 展 ，SAS 9 的 版 本 也 已 经 从 9.0 发 展 到 了 9.4 M5。 在 SAS 9 平台 上 ， 每 当 SAs 发 布 一 个 新 的 版 本 ，SAs 的 用 户 都 有 两 
个 选择 : 继续 使 用 其 当前 版 本 的 SAs， 或 者 通过 对 版 本 的 升级 和 数据 的 迁移 而 使 用 最 新 版 本 的 SAS。 由 于 SAS 每 个 新 的 版 本 在 功能 和 性 能 上 都 会 比 上 一 个 版 本 有 不 同 程度 的 提升 ， 因 此 大 部 分 用 户 都 会 选择 升 


级 。SAS Viya 推 出 之 后 ， 由 于 SAS Viya 采 用 了 新 的 体系 架构 ，SAS 9 又 有 着 悠久 的 历史 ， 以 及 大 量 的 忠实 用 户 ， 用 户 希 望 既 可 以 保留 和 使 


基于 现 有 SAS 9 的 大 量 系统 和 应 用 ， 又 希望 可 以 使 用 SAS Viya 这 


一 具备 高 性 能 、 开 放 性 等 诸多 优势 的 运行 平台 。 因 此 ， 在 本 章 中 ， 我 们 将 关注 如 何 实现 SAS Viya 与 SAS 9 这 两 个 环境 的 共存 ， 实 现 两 个 环境 之 间 的 交互 ， 也 就 是 如 何 使 数据 和 代码 可 以 在 两 个 平台 之 间 进 行 


传递 和 执行 。 


本 章 将 首先 介绍 SAS Viya 与 SAS 9 平台 在 架构 上 的 差异 ， 然 后 具体 介绍 在 两 个 平台 之 间 如 何 共享 数据 和 运算 资源 ， 其 中 还 会 给 出 两 个 应 


7.1 SAS Viya 与 SAS 9 的 差异 


场景 的 示例 代码 。 


SAS 9 从 推出 到 现在 已 经 超过 了 十 年 。 随 着 其 版 本 的 推进 ，SAS 9 不 断 地 吸收 新 的 技术 ， 功 能 也 越 来 越 完 善 和 强大 。SAS Viya 是 SAS 在 SAS 9 的 技术 积累 之 上 为 满足 客户 的 需求 和 期 望 而 推 出 的 ，SAS 
Viya 与 SAS 9 存在 差异 的 同时 也 有 着 共同 之 处 。 图 7.1 展 示 了 两 个 平台 之 间 的 相同 和 差异 。 为 了 清楚 起 见 ， 图 7.1 中 并 没有 列 出 现 有 各 自 平台 下 的 所 有 组 件 。 并 且 该 图 会 随 着 SAS Viya 的 持续 发 展 而 在 各 层 组 件 


上 有 所 变化 ， 但 这 并 不 影响 我 们 理解 两 个 平台 之 间 的 异同 。 


从 图 7.1 中 可 以 看 出 ，SAS Viya 在 系统 架构 的 主要 层次 上 和 SAS 9 相同 ， 依 然 是 多 层 结构 : 客户 端 、 中 间 层 、SAS 服 务 层 和 高 性 能 分 析 集群 


不 同 。 


层 ， 但 是 两 个 平台 在 各 层 中 使 用 的 技术 和 组 件 已 经 有 了 很 大 的 


中 间 层 SAS 服务 器 


高 性 能 分 析 集群 
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图 7.1 SAS 9 与 SAS Viya 3.1 


在 SAS 9 中 ， 客 户 端 不 仅 有 基于 Web 浏 览 器 的 应 用 ， 也 有 很 多 桌面 应 用 如 Data Integration Studio (DIS) 、 
端 。 由 于 SAS Viya 风 推出 不 久 ，SAS 9 平台 上 一 些 被 用 户 广泛 使 
间 的 推移 逐步 完善 其 客户 端 产品 。 


Enterprise Miner (EM) 等 。 


在 中 间 层 方面 ，SAS Viya 使 用 了 微服 务 架构 。 微 
服务 之 间 可 以 通过 REST API 彼 此 进行 交互 和 集成 。 因 此， 相 比 于 SAS 9 中 把 Web 服 务 集成 打包 的 做 法 ， 
器 组 件 ，SAS 9 上 的 一 些 服务 器 ， 例 如 Metadata Server， 被 转换 成 SAs Viya 平 台 上 的 微服 务 。 在 高 性 能 分 析 集群 上 ，SAs 9 使 
基础 上 有 了 本 质 性 的 提升 ， 在 分 析 算 法 的 高 性 能 和 集群 稳定 性 、 安 全 性 等 方面 都 做 了 提升 。 


因 


回 


SAS Web Infrastructure Platform 


的 客户 端 ， 例 如 Enterprise Guide (EG) 和 前 面 提 到 的 DIS、EM 等 ， 还 没有 被 迁移 到 SAS Viya 平 台 上 形成 类 似 的 产品 。 


有 务 架 构 强调 的 是 系统 的 组 件 化 和 服务 化 ， 把 原 有 的 单个 系统 拆 分 为 多 个 可 以 独立 开发 、 设 计 、 运 行 和 维护 的 小 应 
微服 务 架构 有 着 更 好 的 灵活 性 和 可 维护 性 。 在 SAS 服 务 器 方面 ， 
的 是 SAS LASR, SAS Viya 使 


。 SAS LASR 


。 SAS CAS 


而 在 Viya 中 ， 几 乎 所 有 应 用 都 提供 了 基于 Web 浏 览 器 的 客户 


SAS Viya 会 随 着 时 


， 每 个 小 应 
SAS Viya 比 SAS 
的 是 CAS 服 务 器 。CAS 


就 是 一 个 微服 务 。 微 
9 上 了 人 少 了 很 多 服务 
RIS RETESAS LASR 的 


用 


7.1 对 两 个 平台 之 间 的 差异 进行 了 简单 描述 之 后 ， 我 们 再 | 


到 本 章 的 主题 。 要 理解 SAS 9 与 SAS Viya 之 间 如 何 共享 数据 和 计算 资源 ， 首 先 就 要 理解 两 个 平台 上 代码 的 执行 位 置 和 数据 的 位 置 。 


前 文 介绍 过 ， 在 SAs Viya 平 台 上 ， 所 有 的 代码 首先 都 要 提交 给 WORKSPACE SERVER, WORKSPACE SERVER 是 OBJECT SPAWNER 根 据 


户 请 求 而 启动 的 一 个 SAS 会 话 ，WORKSPACE SERVER 首先 


对 代码 进行 解析 ， 并 根据 解析 获得 结果 ， 判 断 是 在 WORKSPACE SERVER 中 执行 ， 还 是 需要 调 


SAS 9 也 基本 相同 。 在 SAS 9 平台 下 ， 无 论 容 户 端 是 什么 ， 每 当 要 执行 SAS 代 码 的 时 候 ， 都 需要 在 SAS 服 务 器 
PROCESS SERVER 或 其 他 。SAS 会 话 会 解析 并 执行 SAs 代 码 ， 根 据 代 码 判断 是 否 需要 调 
户 端 来 展示 这 一 过 程 。 


客户 端 


[ 
= 


SAS Studio 


中 间 层 


SAS 服务 天 


SAS Studio 
web application 


Object Spawner 


Workspace Server 


7.2 代码 的 执行 位 置 与 数据 的 位 置 


37.2, 
同 的 。 
CAS" 等 代码 提交 到 SAS 9 的 会 话 中 时 ，SAS 9 的 会 
法 访问 LASR。 


展示 了 两 个 平台 之 间 相同 的 地 方 : 无 论 是 SAS Viya 还 是 SAS 9， 代 码 都 是 首先 提交 到 SAS 会 话 中 (示例 中 是 WORKSPACE SERVER) 。 


话 会 因为 无 法 解析 这 些 代码 而 报错 。 


可 


所 谓 SAS Viya 与 SAS 9 的 交互 其 实 就 是 想 通 过 某 种 方式 ， 让 SAS Viya 与 SAS 9 互相 协作 ， 实 现 各 
SAS Viya 到 SAS 9。 这 样 用 户 就 可 以 在 一 个 平台 上 提交 另 一 个 平台 上 的 代码 ， 使 用 另 一 个 平台 的 服务 。 


前 ， 我 们 可 以 使 


从 代码 开发 的 角度 来 讲 ， 所 谓 功 能 不 同 就 是 指 SAS Viya 中 的 SAS 会 话 与 SAS 9 中 的 SAS 会 话 所 能 解析 的 SAS 代 码 是 不 同 的 。 例 如 前 文 介绍 的 CAS 语 
Alt, SAS 9 的 SAS 会 话 可 以 访问 LASR 而 无 法 访问 CAS 服 务 器 ， 相 应 的 SAS Viya 的 SAS 会 话 可 以 访问 CAS 服 务 器 而 无 


擅长 实现 的 功能 。 换 而 言 之 ， 就 是 使 SAS 9 可 以 把 代码 和 数 
SAS/CONNECT 产 品 来 实现 这 一 需求 。 


CAS 服 务 器 ， 数 据 也 会 根据 代码 的 不 同 而 读 入 WORKSPACE SERVER 或 CAS 服 务 器 。 


层 启动 一 个 SAS 会 话 ， 这 个 SAS 会 话 可 能 是 WORKSPACE SERVER， 也 可 能 是 STORED 
LASR 服 务 器 ， 数 据 也 会 根据 代码 的 要 求 读 入 到 SAs 会 话 ， 或 者 加 载 到 LASR 服 务 器 。 


图 


7.2 就 是 以 SAS Studio 作 为 客 


高 性 能 分 析 集 群 


LASR or CAS 


但 SAS SA Viya 中 SAS 会 话 各 自 的 功能 是 不 
、CAS 逻 辑 库 ， 当 把 “CASLIB” Be “PROC 


反 过 来 从 


届 提 交 到 SAS Viya 中 执行 ， 或 者 


7.2 SAS/CONNECT 


7.2.1 SAS/CONNECT 介 绍 


SAS/CONNECT 是 SAs 历 史 悠久 的 一 个 重要 产品 ， 一 直 伴随 着 SAs 的 各 个 版 本 。 如 今 也 是 SAS Viya 平 台 的 一 个 重要 组 成 部 分 。SAS/CONNECT 的 主要 功能 就 是 帮助 用 户 在 两 个 SAS 会 话 之 间 建 立 C/S 模 式 
的 会 话 连 接 ， 这 样 作为 CLIENT 端 的 SAS 会 话 就 可 以 把 代码 或 /和 数据 发 送 到 充当 SERVER 端 的 SAS 会 话 上 执行 。 由 于 用 户 可 以 在 一 个 SAS 会 话 中 同时 与 多 个 远 端 的 SAS 会 话 建立 连接 ， 因 此 使 用 
SAS/CONNECT 产 品 也 可 以 实现 代码 的 分 布 式 并 行 计算 。SAS 有 一 款 闻名 的 分 布 式 计算 产品 GRID MANAGER 就 是 使 用 了 SAS/CONNECT 的 这 一 特性 。 


图 7.3 展 示 了 SAS/CONNECT 的 这 一 特点 。 


CLIENT SERVER 


SAS Session 


SAS Code 
and/or Data 


SAS Code 
and/or Data 


SAS Code 
and/or Data 


SAS Code 
and/or Data SAS Code 
and/or Data 


SAS Code 


图 7.3 ”SAS/CONNECT 的 C/S 模 式 
总 结 起 来 ， 通 过 SAS/CONNECT 在 会 话 之 间 建 立 的 连接 可 以 实现 如 下 功能 。 


“ 传输 数据 。 


- 从 CLIENT 端 将 代码 提交 给 SERVER 端 ， 并 直接 处 理 SERVER 端 的 数据 ， 然 后 把 处 理 结果 传 回 CLIENT 端 。 


“ 使 用 本 地 CLIENT 端的 图 形 化 用 户 接口 来 处 理 远 端的 数据 。 


+ 同时 运行 多 个 独立 的 SAS 会 话 实现 并 行 处 理 。 
“ 同时 使 用 分 布 在 多 个 机 器 上 的 数据 。 


由 此 可 见 ， 使 用 SAS/CONNECT 可 以 在 不 同 的 SAS 会 话 之 间 共 享 数据 和 计算 资源 ， 这 里 的 SAS 会 话 就 包括 SAS 9 中 的 SAS 会 话 和 SAS Viya 中 的 SAS 会 话 。 这 样 借助 于 SAS/CONNECT， 用 户 就 可 以 在 使 用 
SAS 9 平台 上 的 代码 和 数据 的 同时 ， 使 用 SAS Viya 中 的 计算 资源 和 分 析 算 法 。 同 样 ，SAS Viya 的 用 户 也 可 以 通过 提交 代码 来 访问 SAS 9 环境 下 的 数据 并 利用 其 处 理 能 力 ， 并 且 可 以 把 SAs 9 中 处 理 完毕 的 数据 
加 载 到 SAS Viya 的 CAs 内 存 中 进行 进一步 的 分 析 和 处 理 。 


使 用 SAS/CONNECT 之 前 ， 首 先 要 保证 本 地 SAS 环 境 和 远 端 SAS 环 境 中 都 已 经 安装 了 SAS/CONNECT， 必 要 时 应 在 远 端的 SAS 环 境 中 启动 AS/CONNECT SPAWNER 服 务 。 


在 一 个 SAS 会 话 中 向 一 个 SAS/CONNECT 服 务 建立 连接 并 提交 代码 的 方式 如 下 所 示 : 


$let 宏 变量 =<SAS/CONNECT 服 务 器 地 址 > < 端口 号 >; 
SIGNON 宏 变量 user=" 用 户 名 "passwd=" 密 码 "; 
RSUBMIT; 


SAS 代 码 ; /* 提交 给 远 端 SAS 会 话 执行 的 代码 */ 
ENDRSUBMIT; 
SIGNOFF; 


其 中 SIGNON 和 SIGNOFF 用 于 连接 和 断 开 远 端的 SAS 会 话 。SAS/CONNECT SPAWNER 会 为 客户 的 每 个 SIGNON 请 求 按 照 宏 变 量 指定 的 SAS/CONNECT 服 务 器 地 址 和 端口 启动 一 个 SAS/CONNECT 


Server， 形 成 一 个 SAS 会 话 。 客 户 端 SIGNON 之 后 提交 的 代码 将 在 这 个 新 生成 的 SAS 会 话 中 执行 。 


端 


RSUBMIT 和 ENDRSUBMIT 之 间 的 代码 会 提交 到 远 端的 SAS 会 话 中 执行 。 其 中 可 以 使 用 PROC UPLOAD 或 PROC DOWNLOAD 实 现 数据 在 两 个 平台 之 间 的 传输 。PROC UPLOAD 用 于 把 数据 从 CLIENT 
的 SAs 上 传 到 SERVER 端的 SAs 中 。PROC DOWNLOAD 用 于 把 数据 从 SERVER 端的 SAs 中 下 载 到 CLIENT 端的 SAs 中 。 关 于 这 两 个 过 程 步 的 详细 介绍 请 大 家 参考 相关 的 SAs 帮 助 文档 。 


下 面 的 示例 展示 的 是 ， 在 SAS 9 的 SAS BASE 中 提交 代码 ， 通 过 SIGNON 与 SAs Viya 建 立 连接 ， 然 后 在 RSUBMIT 和 ENDSUBMIT 之 间 提交 CAS 服 务 器 相关 的 代码 使 之 在 SAS Viya 中 执行 。 如 果 直 接 在 


RSUBMIT 之 外 提交 CAS 代 码 ， 那 么 由 于 代码 将 试图 在 SAS 9 中 执行 ， 因 此 SAS 将 会 报错 。 


%let myserver=ssscrdlax05 17551; 

/* 与 CONNECT 服 务 器 建立 连接 ,Viya 端 会 生成 一 个 SERVER SAS 会 话 */ 

SIGNON myserver user=sasdemo passwd="XXXXXX"; 

rsubmit; 
cas mysess 1 cashost="ssscrdlax06" casport=5570; 
caslib all list; 

endrsubmit; ` 

SIGNOFF; 


cas mysess_1 cashost="ssscrdlax06" casport=5570; 


其 中 ssscrdlax05 就 是 SAS Viya 的 CONNECT 服 务 器 所 在 的 位 置 ，17551 是 其 端口 。 第 一 个 CAS 语 句 无 法 在 SAS 9 平台 上 执行 ， 而 RSUBMIT 中 的 代码 则 会 提交 到 SAS Viya 平 台 上 的 SERVER SAS 会 话 中 执 
。 日 志 如 下 : 


314 %let myserver=ssscrdlax05 17551; 
315 SIGNON myserver user=sasdemo passwd=XXXXXXXXXX; 
NOTE: Remote signon to MYSERVER commencing (SAS Release 9.04.01M3P062415) . 
WARNING: The client session encoding wlatinl is not compatible with the server session encoding utf-8. Data may not be transmitted correctly. 
NOTE: Copyright (c) 2016 by SAS Institute Inc., Cary, NC, USA. 
NOTE: SAS (r) Proprietary Software V.03.01 (TS1M0 MBCS3280) 
Licensed to VIyal6w38 without ESP, Site 70068118. 
NOTE: This session is executing on the Linux 2.6.32- 
358.6.2.e16.x86 64 (LIN X64) platform. 
NOTE: Additional host information: 
Linux LIN X64 2.6.32-358.6.2.e16.x86_64 #1 SMP Tue May 14 15:48:21 EDT 2013 x86 64 Red Hat Enterprise Linux Server release 6.4 (Santiago) 


NOTE: SAS initialization used: 


real time 1.11 seconds 
cpu time 0.04 seconds 
NOTE: AUTOEXEC processing beginning; file is /opt/sas/viya/config/etc/connectserver/default/autoexec.sas. 


NOTE: AUTOEXEC processing completed. 
NOTE: Remote signon to MYSERVER complete. 
316 rsubmit; 
NOTE: Remote submit to MYSERVER commencing. 
1 cas mysess 1 cashost="ssscrdlax06" casport=5570; 
NOTE: The session MYSESS 1 connected successfully to Cloud Analytic Services ssscrdlax06 using port 5570. The UUID is df10be81-a948-f£74a-ac54-6faéab4adedc. The user is sasdemo 
active caslib is CASUSERHDFS (sasdemo) . 
NOTE: The SAS option SESSREF was updated with the value MYSESS 1. 
NOTE: The SAS macro SESSREF was updated with the value MYSESS 1. 
NOTE: The session is using 2 workers. = 
2 caslib all list; 
NOTE: Session = MYSESS_1 Name = CASLIB 1 
Type = PATH ` a 
Description = 
Path = /install/users/sasdemo/caslib/ 
Definition = 
Subdirs = No 
Local = No 
Active = No 
Personal = No 


< CRASLIB 语 句 的 输出 较 长 , 此 处 省 略 。> 


NOTE: Action caslib LIST completed for session MYSESS 1. 
NOTE: Remote submit to MYSERVER complete. = 
317 SIGNOFF; 
NOTE: Remote signoff from MYSERVER commencing. 
NOTE: SAS Institute Inc., SAS Campus Drive, Cary, NC USA 27513-2414 
NOTE: The SAS System used: 
real time 2.08 seconds 
cpu time 0.06 seconds 


NOTE: Remote signoff from MYSERVER complete. 


318 cas mysess_1 cashost="ssscrdlax06" casport=5570; 


180 
ERROR 180-322: Statement is not valid or it is used out of proper order. 
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.2 SAS/CONNECT 


.2.1 SAS/CONNECT 介 绍 


SAS/CONNECT 是 SAS 历 史 悠久 的 一 个 重要 产品 ,一 直 伴 随 着 SAS 的 各 个 版 本 。 如 今 也 是 SAS Viya 平 台 的 一 个 重要 组 成 部 分 。SAS/CONNECT 的 主要 功能 就 是 帮助 用 户 在 两 个 SAS 会 话 之 间 建 立 C/S 模 式 
会 话 连 接 ， 这 样 作 为 CLIENT 端的 SAS 会 话 就 可 以 把 代码 或 /和 数据 发 送 到 充当 SERVER 端的 SAs 会 话 上 执行 。 由 于 用 户 可 以 在 一 个 SAS 会 话 中 同时 与 多 个 远 端的 SAs 会 话 建立 连接 ， 因 此 使 用 


SAS/CONNECT 产 品 也 可 以 实现 代码 的 分 布 式 并 行 计算 。SAS 有 一 款 闻名 的 分 布 式 计算 产品 GRID MANAGER 就 是 使 用 了 SAS/CONNECT 的 这 一 特性 。 


司 7.3 展 示 了 SAS/CONNECT 的 这 一 特点 。 


CLIENT SERVER 


SAS Session 


SAS Code 


and/or Data SAS Code 


and/or Data 


SAS Code 
and/or Data 


SAS Code 
and/or Data SAS Code 
and/or Data 


SAS Code 


图 7.3 ”SAS/CONNECT 的 C/S 模 式 
总 结 起 来 ， 通 过 SAS/CONNECT 在 会 话 之 间 建 立 的 连接 可 以 实现 如 下 功能 。 
“ 传输 数据 。 
+ 从 CLIENT 端 将 代码 提交 给 SERVER 端 ， 并 直接 处 理 SERVER 端 的 数据 ， 然 后 把 处 理 结果 传 回 CLIENT 端 。 
+ 使 用 本 地 CLIENT 端的 图 形 化 用 户 接口 来 处 理 远 端的 数据 。 
+ 同时 运行 多 个 独立 的 SAS 会 话 实现 并 行 处 理 。 


“ 同时 使 用 分 布 在 多 个 机 器 上 的 数据 。 


由 此 可 见 ， 使 用 SAS/CONNECT 可 以 在 不 同 的 SAS 会 话 之 间 共 享 数据 和 计算 资源 ， 这 里 的 SAS 会 话 就 包括 SAS 9 中 的 SAS 会 话 和 SAS Viya 中 的 SAS 会 话 。 这 样 借助 于 SAS/CONNECT， 用 户 就 可 以 在 使 用 
SAS 9 平台 上 的 代码 和 数据 的 同时 ， 使 用 SAS Viya 中 的 计算 资源 和 分 析 算 法 。 同 样 ，SAS Viya 的 用 户 也 可 以 通过 提交 代码 来 访问 SAS 9 环境 下 的 数据 并 利用 其 处 理 能 力 ， 并 且 可 以 把 SAs 9 中 处 理 完毕 的 数据 
加 载 到 SAS Viya 的 CAS 内 存 中 进行 进一步 的 分 析 和 处 理 。 


使 用 SAS/CONNECT 之 前 ， 首 先 要 保证 本 地 SAS 环 境 和 远 端 SAS 环境 中 都 已 经 安装 了 SAS/CONNECT， 必 要 时 应 在 远 端 的 SAS 环 境 中 启动 SAS/CONNECT SPAWNER 服 务 。 


在 一 个 SAS 会 话 中 向 一 个 SAS/CONNECT 服 务 建立 连接 并 提交 代码 的 方式 如 下 所 示 : 


$let 宏 变量 =<SAS/CONNECT 服 务 器 地 址 > < 端口 号 >; 
SIGNON 宏 变量 user=" 用 户 名 " passwd=" 密 码 "; 
RSUBMIT; 
SAS 代 码 ; /* 提交 给 远 端 SAS 会 话 执行 的 代码 */ 
ENDRSUBMIT; 
SIGNOFF; 


其 中 SIGNON 和 SIGNOFF 用 于 连接 和 断 开 远 端 的 SAS 会 话 。SAS/CONNECT SPAWNER 会 为 客户 的 每 个 SIGNON 请 求 按照 宏 变量 指定 的 SAS/CONNECT 服 务 器 地 址 和 端口 启动 一 个 SAS/CONNECT 
Server， 形 成 一 个 SAS 会 话 。 客 户 端 SIG6NON 之 后 提交 的 代码 将 在 这 个 新 生成 的 SAS 会 话 中 执行 。 


RSUBMIT 和 ENDRSUBMIT 之 间 的 代码 会 提交 到 远 端的 SAS 会 话 中 执行 。 其 中 可 以 使 用 PROC UPLOAD 或 PROC DOWNLOAD 实 现 数据 在 两 个 平台 之 间 的 传输 。PROC UPLOAD 用 于 把 数据 从 CLIENT 
端的 SAS 上 传 到 SERVER 端的 SAs 中 。PROC DOWNLOAD 用 于 把 数据 从 SERVER 端的 SAs 中 下 载 到 CLIENT 端的 SAs 中 。 关 于 这 两 个 过 程 步 的 详细 介绍 请 大 家 参考 相关 的 SAs 帮 助 文档 。 


下 面 的 示例 展示 的 是 ， 在 SAS 9 的 SAS BASE 中 提交 代码 ， 通 过 SIGNON 与 SAS Viya 建 立 连接 ， 然 后 在 RSUBMIT 和 ENDSUBMIT 之 间 提 交 CAS 服 务 器 相关 的 代码 使 之 在 SAS Viya 中 执行 。 如 果 直 接 在 
RSUBMIT 之 外 提交 CAS 代 码 ， 那 么 由 于 代码 将 试图 在 SAS 9 中 执行 ， 因 此 SAS 将 会 报错 。 


%let myserver=ssscrdlax05 17551; 

/* 与 CONNECT 服 务 器 建立 连接 , Viya 端 会 生成 一 个 SERVER SAS 会 话 */ 

SIGNON myserver user=sasdemo passwd="XXXXXX"; 

rsubmit; 
cas mysess 1 cashost="ssscrdlax06" casport=5570; 
caslib all list; 

endrsubmit; 

SIGNOFF; 


cas mysess_1 cashost="ssscrdlax06" casport=5570; 


其 中 ssscrdlax05 就 是 SAS Viya 的 CONNECT 服 务 器 所 在 的 位 置 ，17551 是 其 端口 。 第 一 个 CAS 语 句 无 法 在 SAS 9 平台 上 执行 ， 而 RSUBMIT 中 的 代码 则 会 提交 到 SAS Viya 平 台 上 的 SERVER SAS 会 话 中 执 
行 。 日 志 如 下 : 


314 %let myserver=ssscrdlax05 17551; 
315 SIGNON myserver user=sasdemo passwd=XXXXXXXXXX; 
NOTE: Remote signon to MYSERVER commencing (SAS Release 9.04.01M3P062415) . 
WARNING: The client session encoding wlatinl is not compatible with the server session encoding utf-8. Data may not be transmitted correctly. 
NOTE: Copyright (c) 2016 by SAS Institute Inc., Cary, NC, USA. 
NOTE: SAS (r) Proprietary Software V.03.01 (TS1M0 MBCS3280) 
Licensed to VIyal6w38 without ESP, Site 70068118. 
NOTE: This session is executing on the Linux 2.6.32- 
358.6.2.e16.x86 64 (LIN X64) platform. 
NOTE: Additional host information: 
Linux LIN X64 2.6.32-358.6.2.e16.x86_64 #1 SMP Tue May 14 15:48:21 EDT 2013 x86_64 Red Hat Enterprise Linux Server release 6.4 (Santiago) 


NOTE: SAS initialization used: 


real time 1.11 seconds 
cpu time 0.04 seconds 
NOTE: AUTOEXEC processing beginning; file is /opt/sas/viya/config/etc/connectserver/default/autoexec.sas. 


NOTE: AUTOEXEC processing completed. 
NOTE: Remote signon to MYSERVER complete. 
316 rsubmit; 
NOTE: Remote submit to MYSERVER commencing. 
al cas mysess_1 cashost="ssscrdlax06" casport=5570; 
NOTE: The session MYSESS 1 connected successfully to Cloud Analytic Services ssscrdlax06 using port 5570. The UUID is dfl0be81-a948-f74a-ac54-6fa6a64adedc. The user is sasdemo 
active caslib is CASUSERHDFS(sasdemo) . 
NOTE: The SAS option SESSREF was updated with the value MYSESS 1. 
NOTE: The SAS macro _SESSREF_ was updated with the value MYSESS 1. 
NOTE: The session is using 2 workers. 
2 caslib _all_ list; 
NOTE: Session = MYSESS_1 Name = CASLIB 1 
Type = PATH ` 7 
Description = 
Path = /install/users/sasdemo/caslib/ 
Definition = 
Subdirs = No 
Local = No 
Active = No 
Personal = No 


< CRASLIB 语 句 的 输出 较 长 ,此 处 省 略 。> 


NOTE: Action caslib LIST completed for session MYSESS_1. 
NOTE: Remote submit to MYSERVER complete. 
317 SIGNOFF; 
NOTE: Remote signoff from MYSERVER commencing. 
NOTE: SAS Institute Inc., SAS Campus Drive, Cary, NC USA 27513-2414 
NOTE: The SAS System used: 
real time 2.08 seconds 
cpu time 0.06 seconds 


NOTE: Remote signoff from MYSERVER complete. 
318 cas mysess_1 cashost="ssscrdlax06" casport=5570; 
180 
ERROR 180-322: Statement is not valid or it is used out of proper order. 


7.2.2 ”SAS 会 话 编码 的 兼容 性 


使 用 SAS/CONNECT 时 ， 由 于 数据 和 代码 会 在 两 个 不 同 的 SAS 会 话 之 间 进 行 传输 ， 因 此 必须 保证 不 同 SAS 会 话 之 间 的 编码 兼容 。 编 码 兼 容 是 指 一 个 编码 方式 下 的 字符 集 是 另 一 个 编码 方式 下 字符 集 的 子 
集 ， 是 具有 方向 性 的 。 例 如 中 文 编码 GB2312 可 以 被 UTF8 兼 容 ， 但 UTF8 却 无 法 被 GB2312 兼 容 ， 因 为 UTF8 字 符 集中 含有 大 量 GB2312 所 没有 的 字符 。 当 把 数据 从 一 个 会 话 传递 给 另 一 个 与 其 编码 不 兼容 的 会 
话 时 ， 有 可 能 会 造成 数据 的 截断 或 丢失 。 这 里 说 “可 能 ”是 因为 是 否 真 的 会 出 现 这 些 数据 错误 是 由 数据 中 的 字符 决定 的 。 例 如 ， 虽 然 UTF8 无 法 被 GB2312 兼 容 ， 但 是 把 一 个 只 包含 汉字 (更 准确 地 说 是 
GB2312 编 码 所 涵盖 的 汉字 ) 的 数据 集 从 UTF8 编 码 的 会 话 传递 给 GB2312 编 码 的 会 话 时 并 不 会 出 错 ， 因 为 这 个 UTF8 编 码 的 只 包含 中 文 汉字 的 数据 集 (不 是 指 UTF8 的 字符 集 ) 中 并 没有 包含 在 GB2312 编 码 中 
不 存在 的 字符 。 


在 SAS Viya 环 境 下 ， 默 认 的 会 话 编码 是 UTF8。 而 在 SAS 9 环境 下 ， 默 认 的 会 话 编码 会 根据 软件 安装 时 的 语言 设置 而 定 。 当 两 个 SAS 会 话 的 编码 不 相同 时 ，SIGNON 语 句 会 在 发 出 的 警告 中 提醒 用 户 。 
7.2.1 节 的 示例 代码 是 在 Latin1 编 码 的 SAs 9 中 提交 的 ， 因 此 日 志 中 多 了 一 个 警告 : 


WARNING: The client session encoding wlatinl is not compatible with the server session encoding utf-8. Data may not be transmitted correctly. 


警告 中 提示 ， 可 能 会 发 生 传输 错误 ， 但 未 必 一 定 发 生 。 这 里 建议 用 户 最 好 使 用 两 个 相同 编码 的 会 话 建立 SAS/CONNECT 连 接 。 


7.3 SAS Viya 与 SAS 9 的 协作 


SAS Viya 和 SAS 9 的 协作 场景 可 分 成 两 种 。 


“ 从 已 有 的 SAS 9 平台 到 新 的 SAS Viya 平 台 。 例 如 ， 用 户 在 已 有 的 基于 SAS 9.4 的 EM 中 进行 数据 的 准备 、 基 本 的 数据 探索 ， 以 及 分 区 成 训练 数据 和 验证 数据 等 ， 然 后 可 以 通过 EM 中 的 SAS 代 码 节 点 把 经 过 
处 理 的 数据 传输 到 新 的 SAS Viya 环 境 中 。 数 据 上 传 到 SAS Viya 之 后 ， 用 户 就 可 以 直接 使 用 SAS Viya 的 客户 端 利用 Viya 的 分 析 和 处 理 功能 来 分 析 包 括 这 些 数据 在 内 的 Viya 环 境 中 的 数据 ; 或 者 ， 用 户 也 可 以 选择 继 
续 使 用 SAS 9 的 客户 端 〈 例 如 EM 或 EG 等 ) 继续 提交 代码 到 SAS Viya 中 对 这 些 数据 进行 分 析 ， 分 析 的 结果 可 以 传 回 SAS 9 的 客户 端 中 进行 下 一 步 的 处 理 。 在 这 一 过 程 中 ， 用 户 可 以 同时 使 用 多 种 SAS 9 的 客户 
端 ， 但 无 论 是 哪 种 客户 端 ， 使 用 SAS/CONNECT 都 是 必 不 可 少 的 。 


- 从 新 的 SAS Viya 平 台 到 已 有 的 SAS 9 平台 。 例 如 ， 用 户 在 SAS Viya 上 做 数据 处 理 和 分 析 ， 但 同时 也 可 以 在 SAS Viya 客 户 端 (例如 SAS Studio) 中 使 用 SAS/CONNECT 来 获取 已 有 的 SAS 9 平台 上 的 数据 ， 或 
者 直接 把 SAS Viya 上 的 分 析 结果 传输 到 SAS 9 的 会 话 中 。 


两 种 方式 大 同 小 异 ， 区 别 就 在 于 是 由 哪 一 方 发 起 的 SAS/CONNECT 连 接 。 


7.3.1 从 已 有 的 SAs 9 平台 到 新 的 SAs Viya 平 台 


本 节 将 以 一 个 具体 的 示例 来 展示 从 SAS 9 到 SAS Viya 的 应 用 场景 。 实 例 中 ， 我 们 使 用 SAS 9.4 环 境 下 的 SAS studio 作为 客户 端 。 当 登录 SAS Studiot, OBJECT SPAWNER 会 启动 一 个 WORKSPACE 
SERVER 作为 用 户 的 SAs 会 话 。 在 SAs Studio 中 提交 的 代码 将 在 WORKSAPCE SERVER 中 执行 。 示 例 中 用 到 的 代码 会 启动 SAS/CONNECT 客 户 端 ， 通 过 SIGNON 语 句 连接 SAS Viya 环 境 中 的 SAS/CONNECT 
服务 器 ， 也 就 是 SAS/CONNECT SPAWNER, SAS/CONNECT SPAWNER 会 为 这 个 SIGNON 请 求 在 SAS Viya 环 境 中 启动 一 个 SAS 会 话 (实际 上 就 是 启动 一 个 第 1 章 介绍 的 SAS 客 户 端 ， 该 SAS 客 户 端 可 以 连 
接 Viya 环 境 中 的 CAS 服 务 器 ) ， 也 就 是 SAS/CONNECT 服 务 器 会 话 。 然 后 ，SAs 9 中 的 WORKSPACE SERVER 就 会 尝试 和 这 个 SAS/CONNECT 服 务 器 会 话 建立 连接 。 一 旦 连接 建立 成 功 ， 用 户 就 可 以 在 SAs 
9 上 通过 RSUBMIT 把 代码 提交 给 SAS Viya 执 行 。 


上 述 流程 如 图 7.4 所 示 。 


客户 站 中 间 层 SAS 服务 需 高 性 能 分 析 集 群 
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图 7.4 AMSAS 9 到 SAS Viya 


SAS 9.4 环 境 下 通过 SAS Studio 提 交 的 示例 代码 如 下 : 


/* 把 表 复制 到 SAS 9.4 的 WORK 逻 辑 库 */ 
PROC COPY in=sashelp out=work ; 
SELECT heart; 
run; 
%let myserver=ssscrdlax05 17551; 
/* 连 接 SAS/CONNECT SPAWNER*/ 
/* 启 动 远程 的 SAS 会 话 , 即 Viya 环 境 中 的 SAS 客 户 端 */ 
SIGNON myserver user=sasdemo passwd="XXXXXX"; 
RSUBMIT; 
/* 建立 一 个 CRS 逻 辑 库 */ 
libname MYCAS CAS caslib="CASUSER" 
host="ssscrdlax06" port=5570 ; 


/* 把 SAS 9 中 的 表 上 传 到 Viya 环 境 的 CAS 内 存 中 */ 

PROC UPLOAD data=heart 
out=mycas.heart94; 

run; 


/* 对 内 存 中 的 表 进行 分 析 */ 

PROC MDSUMMARY data=mycas.heart94 ; 
GROUPBY deathcause; 
VAR cholesterol systolic diastolic ; 
output out=mycas.heartsum94; 

run; 


/* 验证 表 是 否 在 CAS 内 存 中 */ 
PROC DATASETS lib=mycas; 
run; 


/* 打印 CAS 内 存 中 的 分 析 结 果 */ 

PROC PRINT data=mycas.heartsum94; run; 
ENDRSUBMIT; 
SIGNOFF; 


这 段 代 码 的 日 志 如 下 。 为 了 方便 阅读 ， 其 中 省 略 掉 了 部 分 不 重要 的 内 容 : 


331 SIGNON myserver user=sasdemo passwd=XXXXXXXXXX; 
NOTE: Remote signon to MYSERVER commencing (SAS Release 9.04.01M3P062415) . 


NOTE: Remote signon to MYSERVER complete. 


332 RSUBMIT; 

NOTE: Remote submit to MYSERVER commencing. 

1 /* 建 立 一 个 CAS 逻 辑 库 */ 

2 libname MYCAS CAS caslib="CASUSER" host="ssscrdlax06" port=5570; 


NOTE: Libref MYCAS was successfully assigned as follows: 
Engine: CAS 
Physical Name: 73547ea0-04e2-aa43-b0cf-93637ele0dfb 


/* 把 SAS 9 中 的 表 上 传 到 Viya 环 境 的 CAs 内 存 中 
PROC UPLOAD data=heart 
out=mycas.heart94; 
run; 
NOTE: Upload in progress from data=WORK.HEART to out=MYCAS.HEART94 
NOTE: 875112 bytes were transferred at 324115 bytes/second. 
NOTE: The data set WORK.HEART has 5209 observations and 17 variables. 
NOTE: Uploaded 5209 observations of 17 variables. 
NOTE: The data set MYCAS.HEART94 has 5209 observations and 17 variables. 
NOTE: PROCEDURE UPLOAD used (Total process time): 
real time 3.53 seconds 


YAO RW 


cpu time 0.04 seconds 


9 /* 对 内 存 中 的 表 进行 分 析 */ 

10 PROC MDSUMMARY data=mycas.heart94 ; 

11 GROUPBY deathcause; 

12 VAR cholesterol systolic diastolic ; 
13 output out=mycas.heartsum94; 

14 run; 


NOTE: The Cloud Analytic Services server processed the request in 0.065317 seconds. 
NOTE: The data set MYCAS.HEARTSUM94 has 18 observations and 17 variables. 
NOTE: PROCEDURE MDSUMMARY used (Total process time): 

real time 0.22 seconds 

cpu time 0.02 seconds 


16 /* 验 证 表 是 否 在 CAS 内 存 中 */ 
17 PROC DATASETS lib=mycas; 
Directory 


Libref MYCAS 

Engine CRAS 

Physical Name 人 

Server Session UUID sens 

Server Session Name CASAUTO 

Server Host ssscrdlax06 

Server Session Port 5570 

Server Session CASLIB CASUSER 
Number Number 


Member of of Data 
# Name Type Rows Columns Last Modified Encoding Scope 
1 HEART94 DATA 5209 17 01/19/2017 22:50:28 utf-8 Session 
2 HEARTSUM94 DATA 18 17 01/19/2017 22:50:29 utf-8 Session 
18 run; 


20 7* 打 印 CAs 内 存 中 的 分 析 结 果 */ 
21 PROC PRINT data=mycas.heartsum94; run; 


NOTE: There were 18 observations read from the data set MYCAS.HEARTSUM94. 
NOTE: The PROCEDURE PRINT printed pages 1-2. 
NOTE: PROCEDURE PRINT used (Total process time): 

real time 0.17 seconds 

cpu time 0.00 seconds 


NOTE: Remote submit to MYSERVER complete. 
333 SIGNOFF; 
NOTE: Remote signoff from MYSERVER commencing. 
NOTE: SAS Institute Inc., SAS Campus Drive, Cary, NC USA 27513-2414 
NOTE: The SAS System used: 
real time 5.89 seconds 
cpu time 0.13 seconds 


NOTE: Remote signoff from MYSERVER complete. 


对 于 这 段 代 码 的 输出 结果 ， 希 望 大 家 注意 以 下 几 点 。 


“日 志 中 ，RSUBMIT 与 ENDRSUBMIT 之 间 的 代码 行 号 是 从 1 开始 的 ， 与 RSUBMIT 之 外 的 代码 行 号 不 连续 。 这 是 因为 RSUBMIT 中 的 代码 是 在 SAS Viya 中 执行 的 ， 但 日 志 被 传 回 到 SAS 9 的 SAS Studio 界 面 上 


- 其 中 的 PROC PRINT 语 句 虽 然 是 在 SAS Viya 中 执行 的 ， 但 是 其 结果 也 会 传输 到 SAS 9 并 输出 到 SAS Studio 中 。 


7.3.2 ”从 新 的 SAS Viya 平 台 到 已 有 的 SAS 9 平台 


本 节 将 以 一 个 具体 的 示例 来 展示 从 SAS Viya 到 SAS 9 的 应 用 场景 。 示 例 中 ,我们 使 用 SAS Viya 环 境 下 的 SAS Studio 作 为 客户 端 。 和 上 一 个 示例 类 似 ， 当 登录 SAS Studio 时 ，SAS Viya 的 OBJECT 
SPAWNER 会 启动 一 个 WORKSPACE SERVER 作 为 用 户 的 SAS 会 话 。 在 SAS Studio 中 提交 的 代码 将 在 WORKSAPCE SERVER 中 执行 ，SAS 会 话 在 需要 的 时 候 会 与 CAS 服 务 器 交互 ， 例 如 启动 一 个 CAS 会 话 。 
示例 中 的 代码 同样 会 启动 SAS/CONNECT 客 户 端 ， 通 过 SIGNON 语 句 连接 已 有 的 另外 一 个 SAS 9 环境 中 的 SAS/CONNECT SPAWNER，SAS/CONNECT SPAWNER 会 为 这 个 SIGNON 请 求 启动 一 个 SAS OSE 
台 的 SAS/CONNECT 服 务 器 会 话 。 然 后 ，SAS Viya 中 的 WORKSPACE SERVER 就 会 和 这 个 SAS/CONNECT 服 务 器 会 话 建 立 连接 。 连 接 建立 成 功 之 后 ， 用 户 就 可 以 在 SAs Viya 的 SAS Studio 中 通过 RSUBMIT 
把 代码 提交 给 SAS 9 执行 。 


流程 图 也 和 上 一 个 示例 类 似 ， 具 体 如 图 7.5 所 示 。 
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图 7.5 AMSAS Viya 到 SAS 9 


通过 SAS Viya 下 的 SAS Studio 中 提交 的 代码 如 下 : 


/* 启 动 CAS 会 话 , 创建 CAS 逻 辑 库 。*/ 
cas mysess cashost="ssscrdlax06" casport=5570; 
libname mycaslib cas sessref=mysess; 


%let myserver=ssscrdlax05 17551; 


/* 连 接 SAS/CONNECTER SPAWNER. */ 

SIGNON myserver user=sasdemo passwd="Go4thsas"; 

rsubmit; 
/* 把 SAS 9 中 的 数据 下 载 到 本 地 会 话 ,然后 再 上 传 到 CAS 服 务 器 。*/ 
PROC DOWNLOAD data=sashelp.heart out=mycaslib.heart94; 
run; 

endrsubmit; 


PROC CONTENTS data=mycaslib .heart94; run; 


PROC MDSUMMARY data=mycaslib .heart94; 
GROUPBY deathcause; 
VAR cholesterol systolic diastolic; 
OUTPUT out=mycas.heartsum94; 

run; 


/* 查 看 CAS 中 的 数据 。*/ 
PROC DATASETS lib=mycaslib ; run; 
signoff ; 


日 志 如 下 所 示 。 为 了 方便 阅读 ， 省 略 了 部 分 内 容 : 


57 /* 启 动 CAS 会 话 , 创建 CMS 逻辑 库 。*/ 
58 cas mysess cashost="ssscrdlax06" casport=5570; 
59 libname mycaslib cas sessref=mysess; 
NOTE: Libref MYCASLIB was successfully assigned as follows: 
Engine: CAS 
Physical Name: f0af345d-5b34-7e4c-95af-d413cc2d211c 
60 
61 %let myserver=ssscrdlax05 17551; 
62 
63 /* 连 接 SAS/CONNECTER SPAWNER, */ 
64 SIGNON myserver user=sasdemo passwd=XXXXXXXXXX; 


rsubmit; 

NOTE: Remote submit to MYSERVER commencing. 

1 /* 把 SAS 9 中 的 数据 下 载 到 本 地 会 话 ,然后 再 上 传 到 CAS 服 务 器 。 */ 
2 PROC DOWNLOAD data=sashelp.heart out=mycaslib.heart94; 
3 run; 


NOTE: Download in progress from data=SASHELP.HEART to out=MYCASLIB.HEART94 


NOTE: Status window cannot be initialized. 
NOTE: 875112 bytes were transferred at 8957778 bytes/second. 


NOTE: The data set MYCASLIB.HEART94 has 5209 observations and 17 variables. 


NOTE: Downloaded 5209 observations of 17 variables. 
NOTE: The data set SASHELP.HEART has 5209 observations and 17 variables. 
NOTE: PROCEDURE DOWNLOAD used (Total process time): 

real time 0.13 seconds 

cpu time 0.01 seconds 


NOTE: Remote submit to MYSERVER complete. 


66 PROC CONTENTS data=mycaslib .heart94; 
67 
NOTE: PROCEDURE CONTENTS used (Total process time): 

real time 0.12 seconds 
cpu time 0.07 seconds 

68 PROC MDSUMMARY data=mycaslib .heart94; 

69 GROUPBY deathcause; 

70 VAR cholesterol systolic diastolic; 

71 OUTPUT out=mycaslib .heartsum94; 

72 run; 


NOTE: The Cloud Analytic Services server processed the request in 0.032474 seconds. 
NOTE: The data set MYCASLIB.HEARTSUM94 has 18 observations and 17 variables. 


NOTE: PROCEDURE MDSUMMARY used (Total process time): 


real time 0.16 seconds 

cpu time 0.01 seconds 
73 
74 /* 查 看 CAS 中 的 数据 。*/ 
75 PROC DATASETS lib=mycaslib ; 
75 ! run; 
76 signoff ; 


NOTE: Remote signoff from MYSERVER commencing. 
NOTE: SAS Institute Inc., SAS Campus Drive, Cary, NC USA 27513-2414 
NOTE: The SAS System used: 
real time 0.55 seconds 
cpu time 0.06 seconds 
NOTE: Remote signoff from MYSERVER complete. 


由 于 RSUBMIT 与 ENDRSUBMIT 之 间 的 代码 与 其 他 代码 不 是 在 一 个 环境 中 运行 的 ， 


74 本 章 小 结 


因此 日 志 中 代码 的 行 号 不 同 。 这 段 代 码 在 SAs Studio 中 的 输出 如 


图 


7.6 所 示 。 


本 章 首先 从 架构 上 比较 了 SAS Viya 与 SAS 9 的 差异 ， 然 后 介绍 了 在 两 个 平台 之 间 共 享 数据 和 运算 资源 的 方法 和 注意 事项 ， 最 后 结合 示例 代码 介绍 了 两 种 应 用 场景 。 


The CONTENTS Procedure 


Data Set Name MYCASLIB.HEART94 5209 
Menear ps | OAT [eies T 
erin cas 
Created 01/20/2017 02:01:05 192 
Last Modified 01/20/2017 02:01:05 0 
Protection Na 
Das So pe [sa NO 
Label Framingham Heart Study fe es | 

Data Representation | SOLARIS_X86_64, LINUX_X86_64, ALPHA_TRUB4, LINUX_IA64 | 
Encoding utf-8 Unicode (UTF-8) 


Engine/Host Dependent Infor mation 
Data Limit 100MB 


Alphabetic List of Variables and Attributes 
“avers | (abe 
AgeAtDeath Num 8 | Age at Death 
| 5 | AgeAtStart Num 8 | Age at Start 
| 3 | AgeCHDdiag Num 8 | Age CHD Diagnosed 
BP_Status Char 7 | Blood Pressure Status 
Chol_Status Char 10 | Cholesterol Status 
Cholesterol Num 8 
DeathC ause Char | 26 | Cause of Death 
Diastolic Num 8 
Height Num 8 
MRW Num 8 | Metropolitan Relative Weight 
Sex Char 6 
[| Smoking Num 8 
Smoking_Status | Char 17 | Smoking Status 
| 1 | Status Char| 5 
| 9 | Systolic Num 
了 | Weight Num 
46 | Weight_Status Char 11 | Weight Status 


Directory 


MYCASLIB 


Physical Name 


10. af345d-5b34-7 e4095 af-d413cc2d211¢ 


Server Session UUID 


10. af345d-5b34-7 e4095 at. d4130c2d211¢ 


Server Session Port 


5570 


MYSESS 
10.121.17.193 


Server Session CASLIB | CASUSERHDF S(sasdemo) 


| # | Name | Member Type | Number of Rows | Number of Columns | Last Modified Data Encoding | Scope | 


DATA 


17 | 01/20/2017 02:01:05 | utf8 Session 


| 1 | HEARTe4 
| 2 | HEARTSUM94 


DATA 


17 | 01/20/2017 02:01:06 | utf-8 Session 


图 7.6 SAS Studio 中 的 输出 结果 


第 8 章 CAs 编 程 语 言 介 绍 


本 章 将 详细 介绍 SAS 在 Viya 平 台 上 提供 的 一 种 全 新 的 开发 语言 一 一 CAS 语 言 (CASL) ，CAS 语 言 六 


户 使 


和 管理 CAS 服 务 器 提供 了 完整 且 灵 活 的 支持 。 


本 章 主要 由 三 部 分 组 成 。 第 一 部 分 将 介绍 什么 是 CASL， 以 及 使 用 该 语言 必须 要 掌握 的 一 些 基础 概念 ， 包 括 关 于 CASL 的 一 些 底层 架构 的 知识 ， 这 些 知识 对 用 户 理解 CASL 会 有 很 大 的 帮助 ， 在 8.2 节 将 通 


过 两 个 简单 的 示例 来 把 CASL 开 发 带 入 大 家 的 视野 ， 使 大 家 对 CASL 代 码 有 一 个 初步 的 认识 ; 


本 章 侧重 于 讲解 CASL 编 程 的 用 法 ， 关 于 Viya 平 台 上 的 数据 管理 与 分 析 请 参阅 其 他 章节 。 


8.1 CASL 简 介 


最 后 一 部 分 将 结合 示例 详细 介绍 CASL 的 用 法 ， 把 CASL 的 功能 特点 完整 地 呈现 给 大 家 。 


CASL 是 为 了 访问 和 操作 SAS Viya 的 CAS 服 务 器 而 设计 的 新 的 开发 语言 ， 其 目的 是 方便 开发 者 使 用 


SAS 开 发 者 所 熟悉 的 Data 步 或 其 他 过 程 步 ， 它 使 用 


CAS 服 务 器 这 一 SAS 最 新 的 高 性 能 分 析 引 擎 。 作 为 SAS 编 程 语言 体系 里 的 一 个 新 成 员 ，CASL 不 同 于 以 往 


了 一 套 新 的 语法 规则 ， 吸 收 了 很 多 其 他 高 级 语言 的 特点 ， 使 代码 变 得 更 加 易于 编写 和 | 阅读， 但 同时 又 在 一 定 程度 上 沿袭 了 SAS 语 言 以 往 的 使 用 习惯 ,与 


SAS 语 言 以 往 的 风格 保持 一 致 。SAS 为 CASL 定 义 了 一 个 新 的 过 程 步 CAS (PROC CAS) 。 使 用 CASL 开 发 的 代码 都 必须 放 到 PROC CAS 里 才 可 以 提交 执行 ， 如 下 代码 所 示 : 


PROC CAS; 
CASL code; 
RUN; 


我 们 首先 介绍 或 回顾 一 下 CASL 所 涉及 的 一 些 基本 概念 ， 具 体 如 下 。 


“ Workspace Server 和 CAS 服 务 器 : 前 文 介绍 过 ， 这 是 Viya 架 构 中 并 存 的 两 个 分 析 引 擎 ， 它 们 各 自 具有 不 同 的 功能 ， 承 担 着 不 同 的 任务 。 我 们 说 CASL 是 为 CAS 服 务 器 而 推出 的 新 的 语言 ， 但 这 并 不 意味 着 
所 有 的 CASL 代 码 都 必须 在 CAS 服 务 器 中 执行 。 简 单 来 讲 ， 开 发 者 在 SAS Studio 中 提交 的 SAS 代 码 ， 不 论 是 Data 步 、SAS 的 过 程 步 ， 还 是 CASL， 首 先 都 要 提交 到 Workspace Server'P o Workspace Server 会 对 代码 进 
行 解析 ， 把 其 中 需要 在 CAS 服 务 器 上 执行 的 代码 提交 给 CAS 服 务 器 ， 代 码 中 通过 CASL 调 用 的 ACTION 会 提交 到 CAS 服 务 器 ， 其 余 诸 如 过 程控 制 之 类 的 代码 都 将 在 Workspace Server 中 执行 。 


图 8.1 展 示 了 在 SAS Viya 平 台 上 程序 代码 的 处 理 过 程 。 


proc Cas; 


? 代码 提交 : 调用 ACTION 


proc Cas; 


ACTION...; 


SAS Studio Workspace Server 


图 8.1 Workspace Server 和 CAS 服 务 器 


- ACTION: 在 SAS Viya 平 台中 ， 我 们 把 所 有 提交 给 CAS 服 务 器 处 理 的 任务 都 称 为 ACTION。 每 个 ACTION 都 能 完成 一 个 特定 的 功能 ， 解 决 一 个 独立 的 问题 。 调 用 ACTION 是 CASL 的 一 个 主要 功能 。 在 
Proc CAS 中 使 用 CASL 代 码 向 CAS 服 务 器 发 起 一 个 ACTION 执 行 请 求 ， 并 提供 执行 ACTION 的 参数 ，CAS 服 务 器 在 执行 完 ACTION 之 后 会 返回 结果 ， 并 释放 对 应 的 计算 资源 。 复 杂 的 计算 和 分 析 工 作 主 要 依靠 
ACTION 来 完成 。 目 前 Viya 3.1 版 本 里 的 CAS 服 务 器 支持 大 约 500 多 个 ACTION ， 已 经 能 够 完成 从 数据 处 理 到 高 等 分 析 过 程 中 各 个 步骤 的 任务 。 随 着 版 本 的 推进 ，CAS 服 务 器 的 功能 会 变 得 越 来 越 强大 。 


- ACTIONS: ACTION 按 照 实现 的 功能 可 以 分 成 多 种 类 型 ， 例 如 ， 用 于 数据 挖掘 和 机 器 学 习 功 能 的 、 用 于 统计 分 析 功 能 的 、 用 于 CAS 中 的 表 管 理 ， 或 者 CAS 会 话 管理 功能 的 ， 等 等 。 为 了 便于 管理 和 使 
用 ACTION， 在 SAS Viya 中 ， 把 所 有 的 ACTION 按 功能 划分 成 组 ， 每 个 组 称 为 一 个 ACTION 集 合 。 每 个 ACTION 集 合 中 会 包含 一 个 或 多 个 ACTION。 

“ACTION 的 数据 源 : CASL 中 ACTION 所 要 处 理 和 分 析 的 数据 必须 是 已 经 加 载 到 CAS 服 务 器 内 存 中 的 数据 。 因 此 ， 在 调用 ACTION 之 前 ， 必 须要 先 完 成 数据 的 加 载 操作 。 关 于 数据 的 加 载 及 管理 请 参阅 
本 书 的 第 3 章 。 

“ACTION 的 执行 位 置 : ACTION 在 CAS 服 务 器 上 执行 ， 更 具体 地 说 ，ACTION 在 CAS 服 务 器 的 CAS 会 话 中 执行 。CAS 服 务 器 中 可 以 同时 存在 多 个 CAS 会 话 ， 会 话 之 间 彼 此 隔离 。 一 个 会 话 的 失败 不 会 影 
响 到 其 他 会 话 的 正常 运行 。CAS 服 务 器 中 可 以 运行 多 个 CAS 会 话 的 机 制 能 够 使 多 个 ACTION 在 各 会 话 中 并 行 执行 ， 从 而 提高 系统 的 效率 。 图 8.2 展 示 了 CAS 会 话 与 ACTION 之 间 的 关系 。 


ACTION 


图 8.2 ACTON 在 CAS 会 话 中 执行 


" ACTION 的 结果 表 : ACTION 的 运行 结果 会 存储 在 一 个 称 为 结果 表 的 变量 里 ， 这 个 结果 表 实 际 上 是 一 个 字典 〈 关 于 字典 的 内 容 请 参考 8.3.4 节 ) ， 而 不 是 CAS 服 务 器 的 内 存 表 。 结 果 表 里 不 仅 包含 行 和 
列 ， 还 包含 了 各 个 列 的 标签 、 属 性 和 格式 。 


“ 函数 : 利用 CASL 可 以 编写 函数 来 实现 代码 的 复 用 。 除 了 自 定义 的 函数 之 外 ，CAS 也 提供 了 一 些 函 数 集 。 这 些 函 数 集 为 开发 者 实现 了 一 些 常用 的 基本 功能 ， 提 高 了 CAS 代 码 编写 的 效率 。 


SAS 中 不 同 的 编程 语言 往往 用 于 完成 不 同 的 任务 。 例 如 ，DATA 步 主要 用 于 处 理 数据 ， 对 数据 进行 ETL (抽取 、 转 换 和 加 载 ) ， 数 据 分 析 的 工作 则 是 依赖 于 过 程 步 来 完成 ， 每 个 过 程 步 完 成 不 同 的 分 析 任 
务 ， 有 各 自 不 同 的 参数 和 设置 。 那 么 CASL (或 者 称 为 过 程 步 PROC CAS) 主要 用 来 做 什么 呢 ? 正 如 本 章 开篇 所 说 的 ， 该 语言 推出 的 目的 是 为 了 方便 开发 者 灵活 使 用 CAS 服 务 器 这 一 SAS 最 新 的 高 性 能 分 析 引 
擎 。CASL 中 提供 了 对 变量 、 表 达 式 、 函 数 、 过 程控 制 等 的 支持 ， 使 得 开发 者 可 以 灵活 地 调用 ACTION 来 使 用 CAS 服 务 器 这 一 优秀 的 高 性 能 分 析 引 擎 。 简 单 来 讲 ，CASL 是 CAS 服 务 器 的 一 个 编程 接口 ，CAS 服 
务 器 能 够 处 理 的 工作 也 就 是 CASL 能 够 处 理 的 主要 工作 。 目 前 Viya 3.1 版 本 里 的 CAS 服 务 器 支持 大 约 500 多 个 ACTION 来 完成 从 数据 处 理 到 最 终 分 析 这 一 过 程 中 各 个 步骤 的 任务 。 随 着 版 本 的 发 展 ， 后 续 CAS 服 
务 器 的 功能 会 越 来 越 强 大 。 


8.2 ”开始 使 用 CASL 


本 节 希 望 通过 两 个 简单 的 示例 ， 让 读者 对 CASL 的 代码 有 一 个 初步 的 印象 ， 详 细 的 语法 规则 会 在 本 章 的 8.3 节 中 进行 介绍 。 


8.2.1 最 简单 的 CASL 代 码 


我 们 用 最 简单 的 代码 作为 第 一 个 示例 : 


proc cas; 
print "The First Example!"; 
run; 


第 一 段 CAsL 代 码 除 了 在 日 志 中 输出 一 个 字符 串 “The First Example! ”以 外 没有 任何 其 他 功能 。 过 程 步 PROC CAs 把 CAsL 代 码 段 包 含 起 来 ， 代 码 段 只 有 一 行 PRINT 语 句 。PRINT 语 句 用 来 把 一 个 表达 
式 的 结果 输出 到 当前 的 输出 位 置 ， 这 里 的 PRINT 语 句 在 日 志 中 输出 一 个 字符 串 “The First Example! ”。 关 于 PRINT 的 介绍 请 参阅 8.3.8 节 。 


接 下 来 ， 我 们 把 这 段 代码 扩展 得 稍微 复杂 一 些 ， 定 义 一 个 函数 “welcome” ， 并 且 使 用 FILE 语 句 把 结果 输出 到 一 个 文件 中 : 


proc cas; 
file logfile "/install/users/sasdemo/caslog"; 
function welcome (name) ; 
print "This is" name " !"; 
end; 
welcome ("SAS Viya"); 
welcome ("CAS") ; 


执行 代码 ， 文 件 caslog 中 会 输出 以 下 文字 : 


This is SAS Viya ! 
This is CAS ! 


该 段 代 码 中 没有 用 到 CAS 会 话 ， 没 有 调用 任何 ACTION， 因 此 该 代码 只 在 Workspace Server 中 执行 ， 并 没有 用 到 CAS 服 务 器 。 


8.2.2 调用 ACTION 进 行 多 线程 分 析 的 CASL 代 码 


展示 了 最 简单 的 CASL 代 码 示例 之 后 ， 我 们 再 通过 一 个 稍微 复杂 一 点 的 例子 感受 一 下 CASL 的 主要 功能 ， 就 是 如 何 调用 CAS 服 务 器 完成 计算 和 分 析 任务 。 在 下 面 的 示例 代码 中 ， 我 们 使 用 CASL 调 
ACTION mdsummary 来 对 表 cars 进 行 描述 性 统计 量 的 计算 。 这 个 ACTION 会 向 CAs 服 务 器 提交 一 个 计算 请 求 ，CAS 服 务 器 计算 完成 之 后 将 结果 回 传 给 Workspace Server。 这 有 段 代码 在 使 用 CASL 之 前 ， 首 
先 使 用 其 他 的 SAS 代 码 来 启动 CAS 会 话 并 将 数据 加 载 到 CAS 内 存 。 


示例 代码 如 下 : 


/* 启 动 SAS 会 话 mysess*/ 
cas mysess cashost="ssscrdlax06" casport=5570; 
/* 在 mysess 上 建立 一 个 cas 1ibrary, 用 于 读 写 内 存 中 的 数据 */ 
libname mycaslib cas sessref=mysess; 
/* 将 SAS 数 据 集 cars 加 载 到 内 存 中 */ 
data mycaslib.cars; 
set sashelp.cars; 


run; 
/* 使 用 CASI 作 描述 性 统计 分 析 */ 
proc cas; 
action simple.mdSummary result=prestatisticdata / 
table={groupby={ {name="type"}}, 
name="cars", 
vars={ {name="length"}, {name="weight"}}} 
nthreads=4; 
print prestatisticdata; 
run; 


在 PROC CAs 中 ，ACTION 语 句 用 于 调用 一 个 名 为 simple 的 ACTION SET 中 的 mdSummary， 并 将 分 析 结 果 存 放 到 结果 表 prestatisticdata 中 。 在 “/” 之 后 是 这 个 ACTION 的 参数 ， 参 数 table 表 示 要 对 
表 cars 的 length 和 weight 列 按照 列 type 来 进行 分 组 统计 。 其 中 的 最 后 一 个 参数 nthreads 表 示 这 个 ACTION 将 在 CAs 服 务 器 的 每 个 计算 节点 上 使 用 4 个 线程 ， 这 正体 现 了 CAs 作 为 一 个 高 性 能 分 析 平台 的 特 
点 ， 这 种 多 线程 多 节点 的 分 布 式 并 行 模式 可 以 大 大 提高 ACTION 的 执行 速度 。 


Print 语 句 把 分 析 结果 输出 到 SAs studio 的 结果 页 面 ， 结 果 按 GROUPBY 分 成 了 多 个 表 ， 这 里 只 截取 其 中 一 个 group 的 结果 展示 给 大 家 ， 如 图 8.3 所 示 。 


prestatisticdata: Results from simple.mdSummary 
Type=Hybrid 


Descriptive Statistics for CARS 


Coefficient 
Std Dev. | Std Error | Variance | of Variation | Sum of Squares | Sum of Squares 


11.5470 | 6.6667 | 133.33 6.8596 25.25 | 0.0016 
ae | 00 | 2890.00 | 3 | 7472 | 249067 | 56043 | 323.56 | 314081 22.5012 19238424 | 7.70 | 0.0165 


图 8.3 simple.mdSummary 的 部 分 输出 结果 


8.3 “CASL 编 程 


除 ACTION 之 外 ， 如 同 其 他 高 级 语言 ，CASL 中 有 变量 、 表 达 式 、 函 数 、 过 程控 制 等 基本 元 素 ， 这 些 元 素 可 以 使 开发 者 灵活 方便 地 使 用 CAS 服 务 器 ， 现 在 一 一 对 它们 进行 介绍 。 


8.3.1 变量 


1. 变 量 的 定义 和 变量 类 型 


一 个 变量 代表 一 个 存储 位 置 ， 用 于 存放 各 种 类 型 的 值 。 在 编写 代码 时 ， 变 量 出 现在 各 个 表达 式 当 中 ， 代 表 一 个 具体 的 值 。 代 码 执行 时 ， 就 会 取出 变量 的 值 来 参与 计算 。CASL 中 ， 变 量 的 名 称 中 可 以 包含 
数字 、 英 文字 母 和 下 划 线 ， 但 名 称 的 第 一 个 字母 不 能 是 数字 。CASL 在 使 用 变量 时 ， 并 不 区 分 字母 的 大 小 写 。 例 如 ， 变 量 A_1 与 变量 a_1 是 同一 个 变量 。 


CASL 使 用 赋值 语句 来 定义 一 个 变量 ,或 者 从 ACTION 执 行 结果 中 返回 一 个 变量 。ACTION 的 返回 变量 将 在 8.3.6 节 介绍 ， 这 里 先 看 赋值 语句 : 


<ASSIGNMENT> 变量 名 称 = 表达 式 ; 


其 中 关键 字 AsSIGNMENT 可 以 省 略 。 右 侧 表 达 式 中 可 以 包含 常量 、 变 量 、 运 算 符 和 函数 ， 表 达 式 计算 出 的 结果 将 赋 给 左 侧 的 变量 。 


示例 代码 如 下 : 


proc cas; 
x=1; 
y=x+1; 
z=min (x,y); 
action listnodes result=res; 
print x y z res; 


这 段 代码 中 创建 了 4 个 变量 ， 变量 x 通 过 直接 用 常量 1 进行 赋值 定义 ， 变 量 y 的 值 是 通过 一 个 算术 表达 式 计算 得 到 的 ， 它 的 值 为 2。 变 量 z 的 表达 式 中 调用 了 函数 min， 因 此 它 的 值 为 1。 最 后 一 个 res 是 
ACTION listnodes 返 回 的 结果 表 。 语 句 print 用 于 把 变量 的 值 打印 到 日 志 中 。 


右 侧 表 达 式 也 可 以 包含 左 侧 的 变量 ， 比 如 : 


proc cas; 
x=1; 
print "x=" x; 
x=x+1; 
print "x=" x; 
run; 


这 时 右 侧 表达 式 的 变量 x 引 用 的 是 原来 的 值 1， 将 计算 之 后 的 值 2 赋 给 x 变 量 。 结 果 如 下 : 


x=1 
x=2 


CASL 中 的 变量 包含 多 种 数据 类 型 ， 具 体 如 下 。 


+ int64 整 型 

+ double 浮 点 型 

“string 字 符 事 

boolean 布尔 型 

- table 表 

"array 数组 

- dictionary #3} (key-value 列 表 ) 
+ blob 二 进 制 对 象 

+ date 日 期 

"time 时间 


+ datetime 日 期 时 间 


其 中 CAs 中 的 字符 串 是 UTF8 编 码 并 以 NULL 结 尾 ， 定 义 时 要 使 用 单 引号 或 双 引 号 括 起 来 。 对 于 这 个 列表 中 的 一 些 特殊 变量 类 型 ， 将 在 之 后 的 相关 章节 里 逐步 展开 介绍 。 


2. 变 量 类 型 的 转换 


在 CAs 中 ， 一 个 变量 可 以 是 上 


确定 下 来 ， 在 代码 运行 的 过 程 中 ， 一 个 变量 可 以 被 


列 出 的 任何 一 种 类 型 。 在 定义 变量 村 


典 类 型 的 数据 就 会 被 销毁 。 在 开发 过 程 中 可 以 使 


DESCRIBE 语 句 检查 一 个 变量 的 


， 变 量 的 类 型 无 须 指定 。Viya 会 根据 变量 的 值 
新 赋值 ， 而 它 的 类 型 也 会 随 着 新 的 赋值 而 动态 改变 。 例 如 当 把 一 个 整数 值 赋 给 了 一 个 字典 类 型 的 变量 时 ， 这 个 变量 


动 为 其 分 配 一 个 数据 类 型 。 当 向 一 


an Sy 
个 变量 


赋值 的 时 候 ， 变 量 的 类 型 会 根据 值 的 类 型 


的 类 型 随即 就 变 成 了 整 型 ， 之 前 的 字 


属性 ， 从 而 确认 该 变量 是 否 为 所 需要 的 类 型 。 


DESCRIBE 变量 名 称 ; 


示例 代码 如 下 : 


proc cas; 
/* 字 符 串 */ 
x="sas viya"; 
describe x; 


/* 整 型 数 +/ 


describe x; 
/* 三 维 数组 */ 
x[1,2,3]=123; 


describe x; 


返回 结果 如 下 : 


string; 
int64 t; 
double 
array ( 1 entries, 1 used); 
[ 0] array ( 2 entries, 1 used); 
[ 1] array ( 3 entries, 1 used); 
[ 2] int64 t; 
array ( 3 entries, 3 used); 
string; 
string; 
string; 
3 entries, 3 used); 
string; 
string; 
array ( 2 entries, 2 used); 
[ 0] string; 
] array ( 2 entries, 2 used); 
[ 0] string; 
[ 1] string; 


变量 的 类 型 可 以 被 显 式 地 强制 转换 。 在 常量 或 变量 之 前 使 


proc cas; 
x= (int64) 2.34; 
describe x; 
print "x=" x; 
y=(string) 3.45; 
describe y; 
print "y=" y; 
z= (boolean) y; 
describe z; 
print " 


z=" 2; 


" (数据 类 型 ) 


就 可 以 实现 类 型 的 转换 ， 代 码 如 下 : 


在 这 段 示例 代码 中 ， 值 2.34 本 来 是 一 个 double 类 型 ， 但 是 使 


了 类 型 转换 操作 符 (int64) 之 后 ，x 将 取 2.34 的 整数 部 分 ， 类 型 为 int64。3.45 也 是 一 个 double 类 型 的 数据 ， 但 是 被 转化 成 了 string 类 型 ， 
因此 y 的 值 为 “3.45”。 在 对 z 赋 值 的 时 候 希望 得 到 一 个 boolean 型 的 值 ， 但 由 于 y 是 一 个 字符 型 变量 ，y 的 值 首先 会 被 转换 成 数值 ，SAs 将 会 在 LOG 中 输出 一 个 NOTE 来 提醒 读者 。 这 段 代码 的 输出 结果 为 : 


int64 七 7 

x=2 

string; 

y=3.45 

NOTE: String '3.45' convert to number. 
boolean; 

z=TRUE 


CASL 中 人 允许 强制 转换 的 变量 类 型 具体 如 下 。 


- (int64) 

-© (double) 
+ (string) 

* (boolean) 
< (date) 

* (time) 


- (datetime) 


大 家 需要 注意 在 进行 类 型 转换 的 过 程 中 数据 取 值 的 变化 ， 比 如 上 面 示例 中 的 double 类 型 转化 成 int64 时 ， 小 数 部 分 会 丢失 。 


当 对 变量 所 要 赋予 的 值 与 期 望 转换 后 的 类 型 不 兼容 时 ， 转 换 会 失败 ， 例 如 : 


proc cas; 
x= (int64) "abcd"; 
run; 


运行 结果 如 下 : 


ERROR: Cannot convert value 

ERROR: An expression failed to evaluate 
ERROR: x = (int64) 'abcd' ; 

ERROR: ^ 

ERROR: Execution halted 


3.datetime、date 和 time 


在 CASL 中 ，date、time 和 datetime 这 三 种 数据 类 型 对 应 的 值 实际 上 是 一 个 浮 点 数 ， 其 中 date 变 量 存储 的 是 距离 1960 年 1 月 1 日 的 天 数 ，time 变 量 存储 的 是 距离 O 时 0 分 0 秒 的 秒 数 ，datetime 变 量 存储 的 
是 距离 1960 年 1 月 1 日 0 时 0 分 0 秒 的 秒 数 。 下 面 的 这 个 例子 将 会 清楚 地 展现 这 个 特点 : 


proc cas; 
/* 使 用 函数 date () 获取 当前 时 间 */ 
x=date (); 
describe x; print "x=" x; 
/* 使 用 函数 (date) 将 x 转换 成 date 类 型 */ 
x= (date) x; 
describe x; print "x=" x; 


输出 结果 中 ， 两 次 赋值 操作 之 后 的 变量 类 型 分 别 为 double 和 date: 


double; 
x=20767 


date; 
x=09NOV2016 


而 在 定义 这 三 种 类 型 的 变量 时 ， 必 须要 借助 于 类 型 转换 符 : 


proc cas; 
x= (datetime) 123; 
describe x; print "x=" x; 
x= (date) 123; 
describe x; print "x=" x; 
x= (time) 123; 
describe x; print "x=" x; 


输出 结果 中 ， 同 样 的 数值 在 三 种 类 型 下 所 得 到 的 时 间 是 不 同 的 : 


datetime; 
x=01JAN1960:00:02:03 
date; 

x=03MAY1960 

time; 

x=0:02:03 


但 是 ， 用 数值 去 定义 一 个 时 间 变 量 显然 是 很 不 方便 ， 下 面 是 一 种 定义 data 变 量 更 为 直观 的 方法 : 


proc cas; 
x= (date) '23FEB1990'd; 
describe x; print "x=" x; 
run; 


输出 结果 中 有 类 型 转换 的 提示 : 


date; 
x=23FEB1960 


8.3.2 ”表达 式 和 运算 符 


表达 式 用 来 创建 变量 、 赋 值 、 计 算 、 变 量 类 型 转换 及 条 件 判断 。 表 达 式 中 可 以 含有 变量 、 常 量 、 运 算 符 或 函数 。 比 如 : 


proc cas; 

x=1; 

y=8; 

z=x+min (y,5)+2.34; 
run; 


这 段 示例 代码 中 含有 向 x、y 和 z 三 个 变量 赋值 的 表达 式 ， 其 中 z 的 赋值 表达 式 中 用 到 了 变量 x、 变 量 y、 函 数 min 和 常数 2.34。 最 后 表达 式 的 计算 结果 是 8.34， 是 一 个 double 类 型 的 数值 ， 变量 z 的 类 型 
就 是 double 类 型 的 。 


在 CAsL 中 ， 表 达 式 中 的 字符 串 常量 必须 由 引号 包含 起 来 ， 否 则 会 被 当 作 变量 来 处 理 。 


比如 下 面 这 段 代 码 中 ，strVar 是 一 个 变量 ， 而 “strVar” 是 一 个 字符 串 常量 : 


proc cas; 
strVar="This is a string"; 
var_l=strVar; 
var_2="strVar"; 
print var 1" " var 2; 
run; ~ ~ 


输出 结果 如 下 : 


This is a string strVar 


运算 符 是 表达 式 的 一 个 重要 组 成 部 分 ， 表 8.1 列 出 了 CAsL 中 所 支持 的 运算 符 ， 按 优先 级 由 低 到 高 排列 。 在 同一 个 表达 式 中 ， 高 优先 级 的 运算 符 先 于 低 优先 级 的 运算 符 计算 。 


表 8.1 CASL 中 的 运算 符 


运算 符 优先 级 功能 描述 

定义 列表 : 数组 或 字典 

引用 列表 : 使 用 序列 号 或 关键 字 
列表 中 元 素 分 割 符 

逻辑 或 

逻辑 与 

大 于 

大 于 或 等 于 

小 于 

小 于 或 等 于 


和 I^|YIv L 
Ww LULD Ww U N N 
© © © © © © 


| Dae 
i 
i 
nA; pa] BR] w 
olojo] o 
M ESA lu 
Ré | Sb) S| at 
> 
Hi ae 
LiL 
= 


Ls 


常用 于 一 个 数字 列表 * 
乘 方 
引用 字典 中 的 元 素 


加 括号 ** 


a 
© 


T 
> 
| 
© un © © 
一 
4p 


一 
© 
© 


0 


* 例 如 ， 赋 值 语句 X=1:5 等 价 于 X={1,2,3,4,5} 


六 府 套 的 表达 式 由 内 到 外 依次 执行 


8.3.3 数组 


一 个 数组 就 是 一 系列 值 的 列表 ， 这 些 值 本 身 可 以 是 独立 的 单 值 ， 也 可 以 是 另外 一 个 数组 。CAsL 中 ， 数 组 里 的 值 是 有 顺序 的 ， 序 列 号 从 1 开始 。CAsL 中 变量 的 类 型 是 通过 向 变量 赋值 而 确定 的 ， 数 组 变量 
的 创建 也 是 通过 向 变量 赋值 来 完成 的 。 


示例 代码 如 下 : 


proc cas; 
arr list={1,2,3}; 
describe arr list; 
print “arr list[1]=" arr list[1] ",arr_list[2]=" 
arr list[2] ", arr list[3]=" arr list[3]; 
run; 


CAsL 中 ,使 用 “ff” 定 义 数组 ， 使 用 “数组 名 [序列 号 ]” 的 方式 引用 数组 中 的 元 素 。 


这 段 代 码 的 运行 结果 如 下 : 


array ( 3 entries, 3 used); 
[ 0] int64 t; 
[ 1] int64 t; 
[ 2] int64 t; 
arr_list[1]=1, arr_list[2]=2, arr_list[3]=3 


从 结果 中 我 们 可 以 看 到 ， 这 个 数组 中 有 3 个 元 素 ， 都 是 整数 类 型 的 。 其 实在 CASL 中 ， 数 组 里 的 元 素 可 以 是 不 同 的 类 型 ， 包 括 整数 、 浮 点 数 、 字 符 串 ， 甚 至 数组 。 


注意 ”同一 个 数组 中 的 元 素 可 以 是 不 同 的 类 型 。 


当 一 个 数组 里 的 元 素 类 型 也 是 列表 时 ， 我 们 称 这 个 数组 是 多 维 的 。 数 组 说 套 的 深度 就 是 数组 的 维 数 。CASL 对 一 个 数组 的 最 高 维 数 没有 限制 。 


下 面 的 代码 创建 了 二 维和 三 维 两 个 数组 : 


proc cas; 
arr list 2d={1, {'a';2}, 13.1, 0'})s 


arr_list_3d={1,'a',{3,{'c','d',4.2}}}; 
describe arr list 2d; 
describe arr_list_3d; 

run; 


运行 结果 如 下 : 


array ( 3 entries, 3 used); 
[ 0] int64 t; 
[ 1] array ( 2 entries, 2 used); 
[ 0] string; 
[ 1] int64 t; 
[ 2] array ( 2 entries, 2 used); 
[ 0] double; 
{ 1] string; 
array ( 3 entries, 3 used); 
[ 0] int64_t; 
[ 1] string; 
[ 2] array ( 2 entries, 2 used); 
[ 0] int64 t; 
[ 1] array ( 3 entries, 3 used); 
[ 0] string; 
[ 1] string; 
[ 2] double; 


通过 describe 语 句 ， 我 们 可 以 看 到 关于 一 个 变量 类 型 的 详细 信息 。 下 | 


详细 解读 一 下 arr_list_2d 的 类 型 信息 ， 以 加 深 读者 对 CAs 数 组 的 理解 。 


array ( 3 entries, 3 used); /* 变 量 arr list 2d 是 一 个 数组 */ 

[ 0] int64 t; /* 第 一 维 的 第 一 个 元 素 是 整数 */ 

[ 1] array ( 2 entries, 2 used); /* 第 一 维 的 第 二 个 元 素 是 一 个 数组 */ 
[ 0] string; /* 第 二 维 */ 

[ 1] int64 t; /* 第 二 维 */ 

[ 2] array ( 2 entries, 2 used); /* 第 一 维 的 第 三 个 元 素 是 一 个 数组 */ 
[ 0] double; /* 第 二 维 */ 

[ 1] string; /* 第 二 维 */ 


参考 这 个 例子 ， 可 以 简 和 


示例 代码 如 下 : 


地 认为 ， 所 有 的 数组 首先 都 是 一 维 的 ， 但 是 这 个 一 维 数组 里 的 元 素 也 可 以 是 数组 类 型 的 ， 而 这 个 类 型 为 数组 的 元 素 包含 的 元 素 又 同样 继续 可 以 是 数组 ， 依 此 类 推 。 


proc cas; 
arr_list_2d={1,{'a',2},{3.1,'c'},'d'}; 
print "arr list 2d[1]=" arr list 2d[1]; 
print "arr list 2d 1]=" arr list 2d[2,1]; 


[1 
[2 

print "arr list _2d[3,2]=" arr list 2d[3,2]; 
[4]=" arr _list_2d[4]; 


print "arr list 2d 
run; 


i 


运行 结果 如 下 : 


arr_list_2d[1]= 
arr list 2d[2,1 
arr_list_2d[3,2 
arr_list_2d[4]= 


在 引用 多 维 数 组 中 的 元 素 时 ， 我 们 需要 根据 数组 中 各 个 元 素 的 情况 来 调整 “[] ”中 序列 号 的 数量 和 值 。 在 上 
在 “[0” 中 使 用 一 个 序列 号 ;arr_list_2d 的 第 二 个 元 素 和 第 三 个 元 素 都 是 数组 类 型 ， 因 此 我 们 需要 在 “[]” 中 使 用 两 个 序列 号 ,分 别 


第 二 个 元 素 或 第 三 个 元 素 ) 中 的 位 


回 


在 引用 数组 中 的 元 素 时 必须 清楚 该 元 素 的 类 型 ， 否 则 会 导致 错误 发 生 。 比 如 : 


的 代码 中 ， 由 于 arr_list_2d 的 第 一 个 元 素 和 第 四 个 元 素 都 不 是 数组 ， 因 此 我 们 只 需 


INTE 


于 指定 元 素 在 第 一 个 数组 中 的 位 置 和 第 二 个 数组 ( 


也 就 是 第 一 个 数组 的 


proc cas; 
arr_list_2d={1,{'a',2},{3.1,'c'},'d'}; 
print "arr_list_2d[1,3]=" arr_list_2d[1,3]; 
run; 


运行 结果 如 下 : 


ERROR: Operand is not a list 

ERROR: An expression failed to evaluate 

ERROR: print "arr list_2d[1,3]=" arr list 2d [1,3]; 
ERROR: ^ Ak, a os 


ERROR: Execution halted 


除了 使 用 “{}” ， 我 们 还 可 以 通过 另外 一 种 方式 定义 数组 ， 代 码 如 下 : 


proc cas; 
arr_list[3,3,3]=1; /*create an array*/ 
arr_list[3,2,3]='a'; /*assign a value to an element*/ 
describe arr_list; 
run; 
运行 结果 如 下 : 
array ( 3 entries, 1 used); /* 变 量 arr 1ist 是 一 个 数组 */ 
[ 2] array ( 3 entries, 2 used); /* 数 组 arr_1ist 的 第 三 个 元 素 是 数组 */_ 
[ 1] array ( 3 entries, 1 used);  /* 数 组 arr_1ist 的 第 三 个 元 素 的 第 二 个 元 素 是 数组 */ 
[ 2] string; 
[ 2] array ( 3 entries, 1 used); /*#¢Harr 1ist 的 第 三 个 元 素 的 第 三 个 元 素 是 数组 */ 
[ 2] int64 t; 


下 面 这 段 代码 中 ， 第 一 个 赋值 语句 创建 了 一 个 三 维 的 数组 ， 各 维 元 素 的 个 数 分 别 是 3、3、3， 并 且 对 其 中 一 个 元 素 赋值 为 1]。 第 二 个 赋值 语句 是 将 一 个 字符 串 赋 给 这 个 数组 中 的 另外 一 个 元 素 。 然 后 我 们 


就 可 以 通过 “数组 名 [序列 号 ]” 的 方式 引用 数组 中 的 元 素 了 ， 但 是 需要 特别 注意 的 是 ， 代 码 中 无 法 引 


一 个 没有 被 赋值 也 就 是 没有 被 初始 化 的 元 素 。 


proc cas; 
arr_list[3,3,3]=1; 
print "arr _list[3,3,3]=" 
print "arr list[3,2,2]= 
run; 


arr_list[3,3,3]; 
arr_list[3,2,2]; 


运行 结果 如 下 : 


arr_list[3,3,3]=1 

ERROR: The index 2 has not be initialized 

ERROR: An expression failed to evaluate 

ERROR: print ‘arr list[3,2,2]=' arr list [3,2,2]; 
ERROR: ^ 

ERROR: Execution halted 


在 定义 或 引用 数组 时 ， 也 可 以 使 用 表达 式 。 比 如 : 


a[2*3+4, xyz, function(1,2, 


3)] = 2; 
x = a[2*3+4, xyz, function (1, 2,3)] 


表达 式 中 计算 出 的 值 将 作为 数组 中 的 序列 号 来 使 用 。 


8.3.4 字典 


一 个 字典 就 是 一 系列 “ 键 值 ” (key-value) 对 的 列表 。 可 以 通过 键 (key) 来 直接 引用 字典 里 的 数据 。 与 数组 一 样 ， 一 个 字典 中 各 个 key 的 值 可 以 是 不 同 的 类 型 ， 可 以 是 字典 和 数组 。 当 字典 里 的 某 个 
元 素 也 是 字典 类 型 的 时 候 ， 我 们 称 之 为 多 维 字典 。 前 面 介 绍 过 ，“{” 可 以 用 来 定义 数组 ， 实 际 上 还 可 以 用 来 定义 字典 。 “fi” 是 用 来 定义 列表 的 ， 至 于 这 个 列表 是 一 个 字典 还 是 数组 ， 则 要 根据 括号 里 的 值 
来 决定 。 


示例 代码 如 下 : 


proc cas; 
dic_list_2d={a="sas",b=1,c={'a',2},d={a="viya",b=2.3}}; 
describe « dic_list_2d; 

run; 


运行 结果 如 下 : 


dictionary ( 4 entries, 4 used); 
[a] string; 
[b] int64 t; 
[c] array ( 2 entries, 2 used); 
[ 0] string; 
[ 1] int64 t; 
[d] dictionary ( 2 entries, 2 used); 
[a] string; 
[b] double; 


可 以 看 出 ，key“c“” 的 值 是 一 个 拥有 2 个 元 素 的 数组 ， 而 key“d ”的 值 是 一 个 拥有 两 个 元 素 的 字典 。 接 下 来 就 可 以 通过 键 来 引用 字典 里 的 数据 了 : 


proc cas; 
dic_list_2d={a="sas" "bl, c={'a',2},d={a="viya",b=2.3}}; 
print "dic | list 2d.a=" dic list 2d.a; 

c list .2d "cls 

dic list 2d.c[1]; 


print "dic list 2d.d=" dic list 2d.d; 
print "dic list 2d.d.b=" dic list 2d.d.b; 
run; 
运行 结果 如 下 : 


dic list 2d.a=sas 

dic list 2d['c']={a,2} 

dic list 2d.c[1]=a 
dic_list_2d.d={a=viya,b=2.3} 
dic_list_2d.d.b=2.3 


tan 


于 多 维 字典 的 理解 方式 可 以 


代码 中 可 以 通过 “字典 名 [key]” 或 “字典 名 .key” 的 方式 引用 字典 里 的 元 素 。 对 于 多 维 字典 ， 可 以 通过 “字典 名 [key1 ，'key2]” 或 “字典 名 .key1.key2” 的 方式 引用 。x 
参考 对 于 多 维 数组 的 理解 : 所 有 的 字典 首先 都 是 一 维 的 ， 但 是 这 个 一 维 字典 里 的 某 个 元 素 的 值 可 能 继续 是 字典 或 数组 。 


方式 ， 比 如 对 于 一 个 数组 类 型 的 字典 元 素 ， 代 码 中 就 必须 使 用 “字典 名 [key ][ 序 列 号 ]” 或 “字典 名 .key[ 序 列 号 ]” 的 方式 。 


除 此 之 外 ， 代 码 要 根据 值 的 类 型 来 灵活 地 使 用 引 
注意 “字典 名 [key]” 中 的 key 一 定 要 用 引号 包含 起 来 ， 否 则 key 会 被 当 作 变 


与 数组 类 似 ， 我 们 也 可 以 通过 另 一 种 方式 来 定义 字典 


proc cas; 
dic_list_2d.a.b=1; 
dic list 2d.a.c='a'; 
describe dic list 2d; 
print "dic list 2d.a.c=" dic list 2d.a.c; 


运行 结果 如 下 : 


dictionary ( 1 entries, 1 used); 
[a] dictionary ( 2 entries, 2 used); 
[b] int64 t; 
[c] string; 

dic_list_2d.a.c=a 


在 CASL 中 ， 数 组 和 字典 属于 列表 的 两 种 形式 ， 它 们 的 定义 和 使 用 都 非常 灵活 。 这 种 设计 给 数据 处 理 和 分 析 带 来 了 很 大 的 灵活 性 。 


8.3.5 “过程 控制 


像 其 他 编程 语言 一 样 ，CASL 通 过 过 程控 制 语句 控制 代码 的 运行 逻辑 。 


1.IF-THENVELSE 语 句 


IF 表达 式 THEN CAS 语 句 ; 
<ELSE> <CAS 语 句 >; 


IF 后 面 的 表达 式 不 仅 可 以 是 含有 比较 运算 符 的 条 件 判断 语句 ， 还 可 以 是 各 种 计算 语句 。 表 达 式 的 结果 有 三 种 : 非 零 、 零 和 缺失 。 在 IF 语句 里 ，SAS 把 零 值 或 缺失 值 当 作 false 来 处 理 ， 也 就 是 IF 判断 不 为 
真 ， 这 时 SAS 将 执行 ELSE 后 面 的 代码 ;SAS 把 所 有 非 零 值 当 作 true 来 处 理 ， 也 就 是 条 件 判断 为 真 ， 这 时 SAS 会 执行 THEN 后 的 语句 。 


“CAS 语 句 ” 可 以 是 任何 有 效 的 CAS 语 句 。THEN 或 ELSE 后 面 也 可 以 有 多 个 CAS 语 句 ， 但 这 时 需 “DO; ”和 “END; ”把 这 些 语句 包含 起 来 ， 代 码 如 下 : 


IF 表达 式 THEN 
DO: 


CAS 


END; 
<ELSE> 


语句 ; 


< DO; CAS 语 句 ;... END;>; 


示例 代码 如 下 : 


proc cas; 
x=5; 


if x then print "表达 式 is true"; 
else print "表达 式 is false"; 

if x>6 then print "表达 式 is true"; 
else print "表达 式 is false"; 

if min(x,6)-5 then print "表达 式 is true"; 
else print "表达 式 is false"; 


运行 结果 如 下 : 


表达 式 is true 
表达 式 is false 


表达 式 is fa 


lse 


2.DO TO 循环 语句 


DO 控制 变量 = 开始 值 TO 结束 值 
<BY 增 量 > <WHILE (条 件 表达 式 ) 


CAS 语 句 ; 
CAS 语 句 ; 


END; 


控制 变量 的 值 控制 着 循环 执行 ，WHILE 和 UNTIL 不 可 以 同时 使 用 。 


整个 循环 的 执行 步骤 具体 如 下 。 


1) 将 控制 变量 初始 化 为 初始 值 。 


2) 当 增 量 大 于 零 时 ， 判 断 控 制 变 量 是 否 大 于 结束 值 ， 如 果 是 就 结束 循环 ， 否 则 继续 执行 ; 当 增 量 小 于 零 时 ， 判 断 控制 变量 是 否 小 于 结束 值 ， 如 果 是 就 结束 循环 ， 否 则 继续 执行 ， 增 量 


会 无 限 循环 下 去 。 
3) 如 果 使 
4) 按 顺序 执行 所 有 的 CAS 语 句 。 
5) 如 果 使 


| UNTIL (条 件 表达 式 ) >; 


了 WHILE 语句 ， 就 判断 WHILE 中 的 条 件 表 达 式 是 否 为 true。 如 果 为 true 则 继续 执行 ， 如 果 为 false 则 结束 该 循环 。 


了 UNTIL 语 句 ， 则 判断 UNTIL 中 的 条 件 表 达 式 是 否 为 true。 如 果 为 true 就 直接 结束 该 循环 ， 否 则 就 继续 执行 。 


6) 按 增 量 步 长 增 大 或 减 小 控制 变量 的 值 ( 当 不 使 用 BY 语句 时 ， 增 量 值 默认 为 1) ， 然 后 跳 到 步骤 2 继续 执行 。 


从 上 边 的 步骤 中 可 以 看 出 ， 循 环 可 能 结束 的 情况 会 发 生 在 第 2 步 、 第 3 步 或 第 5 步 ， 也 就 是 有 条 件 判断 发 生 的 时 候 。 


示例 代码 如 下 : 


不 能 等 于 零 ， 否 则 


proc cas; 


do i=10 to 1 by -2 until( i < 5); 


print " 
end; 
run; 


i=" i; 


运行 结果 如 下 : 


MONN 
© 


H- Pp be be 
Boor 


3.DO OVER 循环 语句 


DO 键 变 
CAS 语 句 ; 


END; x 


x, 值 变量 OVER 列表 ; 


DO OVER 语句 中 ， 列 表 (可 以 是 数组 或 字典 ) 控制 着 循环 的 次 数 。DO OVER 循 环 的 执行 逻辑 比较 简单 ， 整 个 过 程 是 下 面 这 样 的 。 


1) 从 列表 中 剩 下 的 元 素 里 取出 一 个 (每 个 元 素 只 取出 一 次 ) ， 把 这 个 元 素 的 值 赋 给 值 变量 ， 键 变量 的 值 要 根据 列表 的 类 型 来 定 : 


a) 如 果 列 表 是 一 个 数组 ， 那 么 键 变量 的 值 就 是 当前 元 素 的 序列 号 。 


b) 如 果 列 表 是 一 个 字典 ， 那 么 键 变量 的 值 就 是 当前 元 素 的 关键 字 。 


2) 执行 所 有 的 CAS 语 句 。 
3) 判断 列表 中 是 否 还 有 没有 取出 的 元 素 ， 如 果 有 则 回 到 步骤 1 继续 执行 ， 否 则 就 结束 该 循环 。 


示例 代码 如 下 : 


proc cas; 
arr_list={1,2,{'a','b'}}; 
do i,var over arr list; 
print "key=" i " var=" var; 


={'a',2}}; 


do i,var over dic list; 
print "key=" i " var=" var; 
end; 
end; 
运行 结果 如 下 : 


key=c var={a,2} 


4.DO UNTIL 循 环 语句 


DO UNTIL 条 件 表达 式 ; 
CAS 语 句 


tar; 


END; r 


条 件 表达 式 的 值 决定 了 循环 的 执行 次 数 。DO UNTIL 的 执行 逻辑 具体 如 下 。 


1) 判断 条 件 表达 式 的 结果 是 否 为 true， 如 果 是 true 则 执行 步骤 2， 和 否则 就 结束 该 循环 。 
2) 执行 所 有 的 CAs 语 句 。 执 行 完 后 回 到 步骤 1 继续 执行 。 


示例 代码 如 下 : 


proc cas; 
i=10; 
i_list={}; 
do until i<1; 
i_list=i_listti; 
i=i-l; 


print "i_list=" i list; 


执行 结果 如 下 : 


i_list=(10,9,8,7,6,5,4,3,2,1} 


5. DO WHILE 语句 


DO WHILE 条 件 表达 式 ; 
CAS 语 句 ; 


END; 


条 件 表达 式 的 值 决定 了 循环 的 执行 次 数 。DO UNTIL 的 执行 逻辑 具体 如 下 。 


1) 判断 条 件 表达 式 的 结果 是 否 为 true， 如 果 是 true 则 执行 步骤 2， 否 则 就 结束 该 循环 。 


2) 执行 所 有 的 CAs 语 句 。 执 行 完 后 回 到 步骤 1 继续 执行 。 


示例 代码 如 下 : 


proc cas; 
i=10; 
i_list={}; 
do while i>1; 
i_list=i_listti; 
i=i-l; 7 
end; 
print "i_list=" i list; 
run; g F 


执行 结果 如 下 : 


i list={10,9,8,7,6,5,4,3,2} 


注意 DO WHILE 与 DO UNTIL 的 区 别 是 前 者 先 做 条 件 判断 后 执行 代码 ， 后 者 是 先 执行 代码 后 做 条 件 判 断 。 
6.SELECT 语 句 


SELECT 语 句 根据 条 件 控制 了 代码 的 执行 路 径 。 


SELECT 表达 式 ; 
when ( 值 列 表 _1) CAS 语 句 ; 
when ( 值 列 表 _2) CAS 语 句 ; 


<OTHERWISE CAS 语 句 ;> 
END; 


其 中 when 可 以 有 一 个 或 多 个 ，OTHERWISE 是 可 选 的 。 


SELECT 语句 的 执行 逻辑 具体 如 下 。 


= 


由 表达 式 计 算出 一 个 值 value。 


2) 按 顺 序 从 上 到 下 人 遍历 when 语 句 ， 直 到 发 现 某 个 when 的 值 列表 中 包含 了 value， 然 后 执行 该 when 后 面 的 CAs 代 码 。 执 行 完 之 后 不 再 遍历 余下 的 when 语 句 ， 而 是 直接 跳 到 SELECT 的 END。 如 果 


when 后 面 的 CAs 代 码 有 多 行 ， 则 必须 用 “DO; “ 


“END; ”包含 起 来 。 


3) 如 果 没有 发 现 匹配 的 when 语 句 ， 则 执行 OTHERWISE 后 面 的 CAS 代 码 ， 然 后 结束 整个 SELECT 过 程 。 


示例 代码 如 下 : 


proc cas; 
x=1; 
select (x); 
when (2); 
when (1) do; x=x*6; print "x=" x; end; 
when (1,4,5) do; x=x*20; print "x=" x; end; 
otherwise print "no match"; 


运行 结果 如 下 : 


x=6 


由 于 x 的 值 先 与 第 二 个 when 的 值 列表 匹配 上 了 ， 因 此 就 不 再 与 第 三 个 when 的 值 列表 进行 | 


7.GOTO 语 句 


CASL 中 可 以 使 用 GOTO 语 句 跳 转 到 代码 里 的 任何 指定 位 置 。 这 个 指定 的 位 置 在 代码 中 以 “标签 


一 个 标签 ， 代 码 使 用 GOTO 实 现 了 一 个 循环 过 程 : 


proc cas; 
x=0; 
add: x=x+1; /*define a lable on this line*/ 
if x>5 then print "x is greater than 5"; 
else do; 
print "x=" x; 
goto add; 
end; 
run; 


匹配 。 


: ”的 形式 进行 定义 。 标 签 可 以 定义 在 GOTO 语 句 之 前 或 之 后 。 在 下 面 的 示例 代码 中 ，“add: ”定义 了 


运行 结果 如 下 : 


x is greater than 5 


代码 中 ， 当 变量 x 的 值 小 于 5 时 ， 代 码 会 跳 转 到 标签 add 处 继续 执行 。 


使 用 标签 和 GOTO 语 句 时 应 该 多 加 小 心 ， 要 注意 防止 代码 逻辑 的 混乱 ， 特 别 是 当代 码 比较 长 的 时 候 。 


8.3.6 ACTION 


1.ACTION 的 调用 


CASL 通 过 执行 ACTION 在 CAS 服 务 器 上 完成 相对 独立 的 管理 、 计 算 或 分 析 等 任务 。 在 执行 ACTION 之 前 ,该 ACTION 所 要 处 理 的 数据 必须 已 经 加 载 到 了 CAS 服 务 器 的 内 存 里 。 关 于 CAS 数 据 的 加 载 第 3 


中 已 有 详细 的 介绍 ， 本 章 的 示例 代码 中 ,我们 假设 数据 都 已 经 加 载 到 了 内 存 。 


在 PROC CAs 中 ， 有 两 种 方式 调用 ACTION : 


<ACTION> <ACTIONSET 名 称 .>ACTION 名 称 <RESULT= 变 量 名 称 > <ASYNC=name> <status= 变 量 名 称 > / < 参数 >; 


或 者 : 


结果 变量 = ACTION 名 称 {参数 }; 


第 一 种 方式 使 用 ACTION 语 句 来 调用 ACTION。 由 于 在 CAsL 中 ， 任 何不 是 赋值 或 函数 调 有 


TST 


(1) RESULT= 变 量 名 称 


的 语句 都 会 被 当 作 ACTION 来 处 理 ， 


把 ACTION 的 运行 结果 存储 在 变量 中 ， 这 个 运行 结果 称 为 结果 表 。 当 不 设置 RESULT 选 项 时 ，ACTION 的 运行 结果 会 直接 


(2) ASYNC=name 


K 


展示 在 输出 界面 。 


此 在 很 多 情况 下 可 以 省 略 关键 字 ACTION。ACTION 语 名 的 选项 包含 如 


不 设置 该 选项 时 ，ACTION 语 名 将 阻塞 代码 的 执行 直到 ACTION 运 行 结束 。 当 使 用 ASYNC 选 项 时 ，ACTION 语 名 会 立即 返回 。 选 型 设置 的 name 可 用 在 SYNC 语 句 ， 详 细 内 容 请 参考 8.3.6 节 的 “ACTION 


的 并 行 运行 ”。 


(3) STATUS= 变 量 名 称 


把 ACTION 的 状态 码 存储 在 变量 中 。 当 不 使 用 STATUS 选项 时 ， 状 态 码 将 会 存储 到 系统 变量 status 中 。 


在 第 一 种 调用 方式 中 ，ACTION 的 参数 必须 添加 在 斜 线 “/” 之 后 。 


ACTION 的 参数 是 一 个 key-value 列 表 ， 不 同 的 ACTION 有 不 同 的 key-value 键 值 对 列表 。 下 面 的 示例 代码 中 ，ACTION tableinfo 属 于 ACTIONSET table， 用 于 查询 CAS 服 务 器 内 存 中 的 表 的 信息 。 由 于 
直接 使 用 tableinfo 并 不 会 造成 歧义 ， 因 此 可 以 省 略 ACTIONSET 的 名 字 。 这 里 使 用 了 两 个 参数 ，table 参 数 设置 了 内 存 中 表 的 名 字 ，quiet 参 数 设置 了 当 表 不 存在 时 是 否 返 回 错误 ， 值 true 表 示 表 不 存在 时 该 
ACTION 依 然 返回 OK。 


proc cas ; 
tableinfo /table='cars' quiet=true; 
run; 


可 以 在 参数 列表 中 使 用 变量 : 


proc cas ; 

tablename='cars'; 

tableinfo /table=tablename quiet=true; 
run; 


可 以 在 参数 列表 中 使 用 dictionary 变 量 : 


proc cas ; 
params={table='cars', quiet=true}; 
tableinfo /params; 

run; 


还 可 以 在 ACTION 语 名 下面 使 用 PARAM 语句 设置 参数 : 


proc cas ; 
tableinfo; 
param table='cars'; 
param quiet=true; 
run; 


在 第 二 种 方式 中 ，“{ ”必须 添 加 到 actionname 之 后 ， 不 论 “ff” 中 是 否 有 参数 ， 否 则 该 ACTION 会 被 当 作 variable 处 理 。 不 同 于 第 一 种 调用 方式 的 是 ， 第 二 种 方式 调用 的 ACTION 只 能 以 同步 
(SYNC) 的 方式 来 执行 ， 而 且 在 参数 设置 上 无 法 使 用 字典 变量 或 PARAM 语句 。 示 例 代码 如 下 : 


proc cas ; 
tablename='cars'; 
res=tableinfo{table=tablename, quiet=true}; 
run; 


2.ACTION 与 CAS 会 话 


CASL 中 所 有 的 ACTION 都 是 要 提交 到 CAS 会 话 中 执行 的 ， 但 是 CASL 并 不 会 创建 CAS 会 话 。 在 应 用 开发 中 需要 借助 PROC CAS 以 外 的 语句 来 创建 CAS 会 话 。 在 CASL 中 可 以 使 用 SESSION 语句 来 指定 
ACTION 将 在 哪个 会 话 中 执行 : 


SESSION 会 话 名 称 ; 


指定 之 后 ， 后 续 的 ACTION 将 会 提交 到 这 个 指定 的 会 话 中 去 执行 。 当 不 在 PROC CAS 中 使 用 SESSION 语 句 指定 具体 会 话 时 ，ACTION 将 会 提交 给 当前 系统 的 默认 会 话 中 去 执行 。 默 认 会 话 就 是 执行 
PROC CAS 之 前 最 后 创建 的 那个 会 话 。 


/* 创 建 两 个 CAS 会 话 */ 

cas mysess 1 cashost="ssscrdlax06" casport=5570; 
cas mysess 2 cashost="ssscrdlax06" casport=5570; 
/* 此 时 系统 的 默认 会 话 是 mysess_2*/ 


proc cas; 
/* 使 用 会 话 mysess_1*/ 
session mysess 1; 
/* 查 看 会 话 ID*/ 
action sessionid result=uuid; 
print uuid; 
/* 查 看 会 话 状态 */ 
action session.sessionstatus result=s; 
print s; 


/* 使 用 会 话 mysess 2*/ 
session mysess_2; 
action sessionid result=uuid; 
print uuid; 
action session.sessionstatus result=s; 
print s; 
run; 


返回 结果 如 下 : 


NOTE: Active Session now mysess 1. 

{MYSESS 1:Sat Oct 22 03:37:39 2016=20£fc01£-4e5b-e347-8649-d91987£45d1b} 

{state=Connected, number of Connections=1, Timeout=60,ActionStatus=Action is active, Authenticated=Yes, locale=en US} 
NOTE: Active Session now mysess 2. > 
{MYSESS 2:Sat Oct 22 04:22:16 2016=7cf96fcc-90a4-344c-a3a4-a2fe0401642f} 

{state=Connected, number of Connections=1, Timeout=60, ActionStatus=Action is active, Authenticated=Yes, locale=en_US} 


在 切换 会 话 时 ， 一 定 要 保证 该 会 话 中 存在 ACTION 所 需 的 数据 ， 否 则 会 有 错误 发 生 。 


3.ACTION 的 并 行 运行 


CAS 服 务 器 上 所 有 的 分 析 和 计算 都 是 在 CAS 会 话 中 进行 的 ， 在 CAS 服 务 器 上 启动 多 个 CAS 会 话 是 实现 ACTION 并 行 运行 的 前 提 。 可 以 通过 使 用 SESSION 语句 指 定 一 个 CAS 会 话 ， 然 后 把 一 个 ACTION 提 交 
到 这 个 指定 的 会 话 中 。 当 把 一 个 或 多 个 不 同 的 ACTION 提 交 给 不 同 的 会 话 中 执行 时 ，ACTION 就 会 在 各 个 会 话 之 间 并 行 执行 。 但 是 在 同一 个 CAS 会 话 中 ， 所 有 的 ACTION 将 按照 提交 的 时 间 顺 序 先后 执行 。 


只 有 在 提交 ACTION 时 使 用 ASYNC 选 项 才 可 以 实现 ACTION 的 并 行 运行 。 因 为 AsSYNC 选 项 使 得 该 ACTION 不 会 阻塞 CAs 代 码 的 运行 。 这 样 一 来 ， 该 ACTION 下 面 的 语句 就 可 以 接着 执行 ， 包 括 提交 另 一 
个 ACTION。 


当 使 用 ASYNC 选 项 时 ， 由 于 ACTION 是 异步 提交 ， 因 此 无 法 立刻 获取 该 ACTION 的 相关 信息 ， 比 如 ACTION 的 状态 码 和 返回 结果 。 下 面 的 示例 代码 使 用 同步 和 异步 两 种 方式 调用 ACTION SESSIONID 来 


获取 会 话 的 ID: 


proc cas; 
action sessionid result=uuid 1 status=mystatus 1; 
print "uuid 1=" uuid 1 " mystatus 1=" mystatus 1; 


action sessionid result=uuid 2 status=mystatus 2 
async=asyncstatus ; 
print "uuid 2=" uuid 2 " mystatus_2=" mystatus_2; 
run; 


日 志 输出 如 下 : 


uuid 1={MYSESS 2:Fri Jan 6 03:17:31 2017=9072ddc6-9b89-5e4c-95d2-8d67a6ec9d80} mystatus_1={severity=0, reason=0, , statusCode=0} 
NOTE: Variable 'uuid 2' is uninitialized. It has been set to missing. T 

NOTE: Variable 'mystātus_2' is uninitialized. It has been set to missing. 

uuid 2=. mystatus_2=. 


可 以 看 出 ， 在 异步 调用 的 方式 下 ,我们 无 法 直接 获取 ACTION 的 相关 信息 。 要 想 获取 异步 ACTION 的 返回 结果 ， 必 须 先 使 用 SYNC 语 句 来 与 异步 ACTION 进 行 同步 ， 具 体 请 看 如 下 示例 : 


proc cas; 
action sessionid result=uuid 2 status=mystatus_2 
async=asyncstatus; 
print "before sync: uuid 2=" uuid 2 " mystatus_2=" 
mystatus_2; 
sync asyncstatus; 
print " after sync: uuid 2=" uuid 2 " mystatus_2=" 
mystatus 2; 
run; T 


日 志 输出 如 下 : 


NOTE: Variable 'uuid_2' is uninitialized. It has been set to missing. 
NOTE: Variable 'mystatus_2' is uninitialized. It has been set to missing. 


before sync: uuid_2=. mystatus_2=. 
after sync: uuid_2={MYSESS 2:Fri Jan 6 03:17:31 2017=9072ddc6-9b89-5e4c-95d2-8d67a6ec9d80} mystatus_2={severity=0, reason=0, , statusCode=0} 
63 


下 面 我 们 就 通过 两 段 代 码 ， 比 较 一 下 异步 提交 与 同步 提交 ACTION 的 性 能 差异 。 第 一 段 代码 在 同一 个 会 话 中 连续 提交 三 个 相同 的 ACTION ， 三 个 ACTION 以 同步 的 方式 按 顺 序 执行 : 


proc cas; 
synctime=datetime () 7 
session mysess_1; 
action simple.mdSummary result=prestatisticdata / 
table={caslib="caslib_1" groupby={{name="type"}}, 


name="cars", 
vars={ {name="length"}, {name="weight"}}} 
nthreads=4; 


action simple.mdSummary result=prestatisticdata / 
table={caslib="caslib_1" groupby={{name="type"}}, 


vars={ {name="length"}, {name="weight"}}} 
nthreads=4; 


action simple.mdSummary result=prestatisticdata / 
table={caslib="caslib_1" groupby={{name="type"}}, 
cars", 

vars={ {name="length"}, {name="weight"}}} 
nthreads=4; 


synctime=datetime () -synctime; 
put "time (second) :" synctime; 
run; 


第 一 段 代 码 的 日 志 如 下 : 


NOTE: Active Session now mysess _ 1. 
time (second) :5.1868319511 


第 二 段 代码 在 三 个 会 话 中 提交 三 个 相同 的 ACTION， 三 个 ACTION 以 异步 的 方式 按 顺 序 执行 。 如 果 不 在 ACTION 语 句 中 使 用 ASYNC 选 项 ， 那 么 三 个 ACTION 就 会 以 同步 的 方式 按 顺 序 在 三 个 会 话 中 依次 
执行 。 
proc cas; 
asynctime=datetime () ; 
session mysess 1; 
action simple.mdSummary result=prestatisticdata 
async=asynmyess_1/ 
table={caslib="caslib_1" groupby={{name="type"}}, 
name="cars", 
vars={ {name="length"}, {name="weight"}}} 
nthreads=4; 
session mysess 2; 
action simple.mdSummary result=prestatisticdata 
async=asynmyess_2/ 
table={caslib="caslib_1" groupby={{name="type"}}, 
name="cars", 
vars={ {name="length"}, {name="weight"}}} 
nthreads=4 ; 
session mysess_ 3; 
action simple.mdSummary result=prestatisticdata 
async=asynmyess_3/ 
table={caslib="caslib_1" groupby={{name="type"}}, 
name="cars", 
vars={ {name="length"}, {name="weight"}}} 
nthreads=4; 
sync asynmyess_1; 
sync asynmyess 2; 
sync asynmyess 3; 
asynctime=datetime () -asynctime; 
put "time (second) :" asynctime; 
run; 


第 二 段 代 码 的 日 志 输出 如 下 : 


NOTE: Active Session now mysess 1. 
NOTE: Active Session now mysess 2. 
NOTE: Active Session now mysess 3. 
time (second) :2.759608984 7 


第 二 段 代 码 的 运行 时 间 缩 短 了 一 半 。 对 于 数据 量 比较 大 、 运 算 复杂 度 比 较 高 的 ACTION ， 运 行 效率 的 提高 会 更 加 明显 。 


4.ACTION 的 结果 表 


结果 表 是 ACTION 返 回 结果 的 主要 方式 。 通 过 给 ACTION 的 选项 RESULT 设 置 变量 来 获取 一 个 结果 表 。ACTION 执 行 完成 之 后 ， 这 个 RESULT 变 量 的 值 就 是 结果 表 。 结 果 表 实际 上 是 一 个 字典 变量 ， 它 跟 
SASs 逻 辑 库 中 的 表 或 CAs 服 务 器 中 的 表 是 两 个 不 同 的 概念 。 比 如 在 下 面 这 段 示例 代码 中 ，cars 是 一 个 已 经 加 载 到 CAS 服 务 器 中 的 表 ， 是 一 个 表 的 名 称 。carsinfo 是 一 个 变量 ， 其 类 型 是 结果 表 : 


proc cas ; 
tablename='cars'; 


tableinfo result=carsinfo/table=tablename quiet=true; 


describe carsinfo; 
run; 


输出 结果 如 下 : 


dictionary ( 1 entries, 1 used); 


[TableInfo] Table ( [1] Rows [17] columns 


Column Names: 


[1] Name [ 
[2] Rows i 


[3] Columns [ 


] (varchar) 
] (int64) 
] (int64) 


describe 的 结果 表明 结果 表 变 量 是 一 个 字典 ， 字 典 里 包含 的 值 类 型 是 TABLE， 这 个 TABLE 有 17 个 列 和 1 行 数据 。 那 么 为 什么 SAs 不 直接 把 结果 表 的 类 型 设置 成 TABLE 呢 ? 原因 也 很 简单 ， 


ACTION 的 输出 结果 从 格式 到 数据 类 型 往往 都 复杂 多 样 ，TABLE 类 型 只 是 其 中 之 一 ， 这 里 我 们 称 字典 里 那些 类 型 为 TABLE 的 元 素 为 结果 表 的 子 表 。 下 面 


服务 器 的 状态 ， 它 的 结果 表 中 就 不 仅仅 只 有 子 表 了 。 


为 有 很 多 


这 个 示例 中 ，ACTION serverstatus 


于 获取 当前 CAS 


proc cas; 
action serverstatus result=r; 
describe r; 
print r; 

run; 


DESCRIBE 语 句 的 结果 如 下 : 


dictionary ( 3 entries, 3 used); 
[About] list ( 6 entries, 6 used); 
[CAS] string; 
[Version] string; 
[VersionLong] string; 
[Copyright] string; 
[ 


System] list ( 6 entries, 6 used); 


Hostname] string; 
OS Name] string; 
OS Family] string; 
OS Release] string; 
OS Version] string; 
[Model Number] string; 


license] list ( 6 entries, 6 used); 
site] string; 
siteNum] int32_t; 
expires] string; 
gracePeriod] int32_t; 
warningPeriod] int32_t; 
maxCPUs] int64 t; 
server] Table ( [1] Rows [2] columns 
Column Names: 
[1] nodes [Node Count ] (int32) 
[2] actions [Total Actions ] (int32) 
[nodestatus] Table [nodes] ( [3] Rows [5] columns 
Column Names: 
[1] name [Node Name ] (string) 
[2] role [Role ] (string) 
[3] uptime [Uptime (Sec) ] (double) 
[4] running {Running ] (int32) 
[5] stalled [Stalled ] (int32) 


如 图 8.4 所 示 ，ACTION serverstatus 的 结果 表 中 包含 了 3 个 元 素 ， 包 括 一 个 列表 (LIST) 和 2 个 子 表 (TABLE) 。 这 里 的 列表 实际 上 是 一 个 字典 。 


PRINT 语 句 的 把 结果 表 中 的 列表 值 打印 在 了 


志 中 ， 表 的 值 打印 到 了 ODS: 


{About={CAS=Cloud Analytic Services, Version=3.01,VersionLong=V.03.01M0P09072016, 
Copyright=Copyright license={site=VIyal6w38 without ESP, siteNum=70068118, expires=19Dec2016:00:00:00, 


gracePeriod=45, warningPeriod=55, maxCPUs=9999}},,} 


r: Results from builttins.server Status 


Hode Count | Total Actions 


ode Name [roe kunning | Stated | 


图 8.4 ”serverstatus 的 输出 结果 


有 了 结果 表 ， 开 发 者 就 可 以 通过 SAVERESULT 语 句 把 结果 表 中 的 子 表 持久 化 成 文件 、SAsS 数 据 集 ， 或 者 是 CAS 服 务 器 的 内 存 表 : 


SAVERESULT 结果 表 变 量 名 称 <NOREPLACE> 
DATAOUT=< 尿 辑 库 名 称 .> 表 名 称 | 
LIB= 逻 辑 库 名 称 | 
FILE= 文 件 名 称 | 
CASLIB=CASLIB 名 称 <CASOUT= 表 名 称 >; 


- NOREPLACE: 不 覆盖 目的 位 置 已 有 的 文件 或 表 。 


< DATAOUT: 把 结果 表 存 储 为 逻辑 库 中 的 表 。 当 不 指定 逻辑 库 时 ， 结 果 表 将 被 存储 成 WORK 中 的 SAS 数 据 集 。 如 果 结 果 表 中 含有 多 个 子 表 ， 那 么 各 个 子 表 会 以 DATAOUT 指 定 的 表 名 称 为 前 缓 独立 存 


LIB: 把 结果 表 的 子 表 存储 到 指定 的 逻辑 库 中 。 
FILE: 把 结果 表 中 的 所 有 子 表 存储 成 一 个 文件 。FILE 选 项 的 值 是 一 个 文件 名 ， 当 文件 不 存在 时 会 自动 创建 。 需 要 注意 的 是 这 个 文件 所 在 的 位 置 必须 是 WORKSPACE SERVER 可 以 访问 到 的 。 


- CASLIB: CASLIB 表 示 CAS 服 务 器 的 一 个 内 存 空 间 ， 使 用 CASLIB 选 项 可 以 把 结果 表 中 的 子 表 加 载 到 CAS 服 务 器 的 内 存 中 ， 成 为 一 个 或 多 个 内 存 表 。CASOUT 指 定 了 表 的 名 称 ， 但 只 可 以 在 结果 表 中 仅 
有 一 个 子 表 的 情况 下 使 用 。 


下 面 的 示例 代码 中 用 到 了 关于 CAS 中 数据 管理 的 一 些 知识 ， 这 部 分 内 容 将 在 后 续 的 章节 详细 介绍 ， 这 里 主要 关注 结果 表 的 存储 : 


/* 启 动 一 个 CAS 会 话 */ 
cas mysess 1 cashost="ssscrdlax06" casport=5570; 
/* 创 建 一 个 CASLIB*/ 
caslib caslib 1 sessref=mysess_1 datasource=(srctype="path") path="/install/users/sasdemo/caslib"; 
proc cas; 
action serverstatus result=r; 
print "save result as file serverstatus"; 
saveresult r file="/install/users/sasdemo/serverstatus"; 
print "save result to caslib as tables"; 
saveresult r caslib=caslib 1 ; 
print "save result to library"; 
saveresult r lib=work; 
print "save result to library with specific table name"; 
saveresult r dataout=work.serverstatus; 
run; 


在 输出 的 日 志 中 ， 各 选项 的 结果 一 目 了 然 : 


save result as file ‘serverstatus' 

save result to caslib as tables 

NOTE: The table has been loaded with 1 observations and 2 variables. 
NOTE: The table has been loaded with 3 observations and 5 variables. 

save result to library 

NOTE: The data set work.server has 1 observations and 2 variables. 

NOTE: The data set work.nodestatus has 3 observations and 5 variables. 
save result to library with specific table name 

NOTE: The data set work.serverstatusl has 1 observations and 2 variables. 
NOTE: The data set work.serverstatus2 has 3 observations and 5 variables. 


关于 这 个 结果 ， 请 大 家 注意 以 下 几 点 。 
- FILE 选 项 没有 日 志 输 出 ， 表 示 文 件 /install/users/sasdemo/serverstatus 已 经 创建 成 功 。 


“ 加 载 到 CASLIB 中 的 表 名 会 按照 一 定 的 规律 随机 生成 ， 但 可 读 性 不 强 。 当 结果 表 中 只 含有 一 个 子 表 时 ， 可 以 使 用 CASOUT 指 定 表 的 名 称 以 增强 可 读 性 。 比 如 在 该 示例 中 ， 表 示 节 点 状态 的 结果 表 存 到 
CASLIB 中 的 名 称 为 “T EDCA528F_7FCE1D6FDF88”。 即 便 是 相同 的 表 每 次 保存 下 来 的 时 候 ， 表 名 也 会 不 同 ， 因 为 名 称 中 后 边 两 个 “ ”之 间 的 字符 串 〈 对 应 到 示例 中 的 “EDCA528F”) 每 次 都 会 随机 生 
成 。 

- 使 用 DATAOUT 选 项 与 LIB 选 项 时 ， 生 成 的 表 的 名 称 是 不 同 的 。 


+ SAVERESULT 不 保存 表 类 型 之 外 的 其 他 类 型 。 


8.3.7 BRŽ 


1. 函 数 的 定义 和 调 有 


CAsL 支 持 函数 的 定义 和 调用 。 通 过 定义 函数 把 重复 使 用 的 可 实现 特定 功能 的 代码 封装 起 来 ， 使 得 代码 的 阅读 和 维护 变 得 更 加 容易 。 


CASL 通 过 如 下 方式 定义 函数 : 


FUNCTION 函 数 名 称 (参数 1， 参 数 2，…) ; 
CAS 语 句 ; 
RETURN 值 | 变量 名 称 | 表达 式 ; 
END; 


在 CAsL 中 ， 函 数 可 以 有 一 个 或 多 个 参数 。 由 于 每 个 参数 都 可 以 作为 一 个 变量 在 函数 内 使 用 ， 因 此 我 们 可 以 称 参数 为 参 变量 。 函 数 体内 可 以 使 用 任何 有 效 的 CASL 语 句 ， 包 括 算 术 表 达 式 、 过 程控 制 ， 或 
者 调用 其 他 函数 ， 等 等 。 函 数 使 用 RETURN 来 返回 一 个 值 。 若 不 需要 返回 值 ， 就 不 需要 使 用 RETURN 语 句 。RETURN 关 键 字 之 后 可 以 是 一 个 常量 ， 也 可 以 是 一 个 变量 或 一 个 表达 式 。 当 不 是 常量 时 ， 变 量 的 
值 或 表达 式 的 值 将 作为 函数 的 返回 结果 。 


CASL 中 调用 函数 的 两 种 方式 : 


<CALL> 函数 名 称 (参数 1， 参 数 2，…) ; 


或 者 直接 在 表达 式 中 使 


变量 名 = 函数 名 称 (参数 1, 参 数 2，…) ; 


其 中 圆 括号 内 的 参数 可 以 是 常量 、 变 量 或 表达 式 。 第 一 种 方式 中 ， 关 键 字 CALL 可 以 省 略 。 但 是 在 这 种 方式 下 ， 函 数 如 果 有 返回 值 的 话 ， 返 回 值 将 被 忽略 。 在 第 二 种 调用 方式 中 ， 函 数 的 返回 值 将 保存 到 
赋值 表达 式 左 侧 的 变量 里 。 


在 函数 的 定义 和 调用 的 先后 顺序 上 ，CASL 的 编译 方式 给 用 户 带 来 了 很 好 的 灵活 性 ， 那 就 是 函数 的 定义 可 以 出 现在 调用 之 后 。 


下 面 的 示例 代码 中 定义 了 一 个 用 于 取 整 的 函数 ， 并 且 展 示 了 函数 调用 的 多 种 方式 : 


proc cas; 
a=5.3; b=-5.3; 
call intpart (a); /* 函 数 的 定义 出 现在 调用 之 后 */ 
intpart (b) ; /* 省 略 了 CALL 关键 字 */ 


function intpart (x); 
if (x < 0) then do; 
print "x is smaller than 0"; 


return 0; 

end; 

else do; 
print "x is bigger than 0"; 
return (int64) X; 

end; 


end; 


c=intpart (-2.1); 
print "c=" c} 
print "intpart (a+1)*3="_intpart (a+1) *3; 


run; 

返回 结果 如 下 : 

x is bigger than 0 /* call intpart (a);*/ 
x is smaller than 0 /* intpart (b);*/ 

x is smaller than 0 /* c=intpart (-2.1);*/ 
c=0 

x is bigger than 0 /* intpart (at1)*/ 


intpart (a+1) *3=18 


CASL 函 数 中 可 以 定义 新 的 变量 ， 也 可 以 使 用 函数 体 以 外 定义 的 变量 ， 需 要 注意 的 是 这 些 外 部 定义 的 变量 可 以 在 函数 调用 之 前 动态 改变 。 而 函数 内 部 定义 的 变量 却 具 有 本 地 性 。 这 里 所 说 的 本 地 性 有 如 下 
两 个 含义 。 


“ 函数 中 定义 的 变量 只 可 以 在 本 函数 中 使 用 。 


“ 函数 中 定义 的 变量 将 履 盖 函数 外 部 定义 的 变量 。 


下 面 这 段 示例 代码 展示 了 外 部 变量 在 函数 中 的 作 


proc cas; 
function abssub(x); /* 使 用 了 外 部 变量 y*/ 
inner a="SAS Viya"; 
z={1,2,3}; /* 内 部 变量 z 具 有 本 地 性 */ 
print "z=" z; 
if (x < y) then do; /* 在 逻辑 判断 中 使 用 外 部 变量 y*/ 


return y-x;; 


end; 
else do; 
return x-y; 
end; 
end 
y=2; z={4,5, 6}; /*y*/ 


print "abssub(5)=" abssub (5) ; 
y=3; z={7,8,9}; 

print "abssub (5)=" abssub (5); 
print "inner a=" inner a; 


运行 结果 如 下 : 


z={1,2,3} 
abssub (5) =3 
z={1,2,3} 
abssub (5) =2 


NOTE: Variable 'inner_a' is uninitialized. It has been set to missing. 


inner_a=. 


从 运行 结果 可 以 看 到 ， 函 数 abssub 中 引用 的 外 部 变量 y 可 以 在 每 次 函数 调 


最 后 要 指出 的 是 ，CASL 中 的 函数 可 以 定义 多 次 。 当 定义 多 个 同名 的 函数 时 ， 最 后 一 个 定义 有 效 。 例 如 下 面 的 代码 : 


之 前 动态 


调整 ， 但 是 外 部 变量 z 则 无 法 覆盖 函数 的 内 部 变量 z， 另 外 函数 的 内 部 变量 inner_a 无 法 在 函数 外 部 使 用 。 


proc cas; 


print "myexp (1) =' 


myexp (1) ; 


function myexp (x) ; 


return 
end; 


"myexp is defined 1"; 


function myexp (x); 


return 
end; 
run; 


"myexp is redefined 2"; 


函数 myexp 定 义 了 两 次 ， 在 日 志 中 会 有 NOTE 提 醒 函 数 已 经 被 替换 : 


NOTE: Function 'myexp' has been replaced. 
exp(1)=exp is redefined 2 


2.CASLR EE 


CAsL 提 供 了 常用 的 功能 函数 。CAsSL 提 供 的 函数 集 可 以 分 为 内 部 函数 集 和 非 内 部 函数 集 。 内 部 函数 集中 的 函数 称 为 内 部 函数 。 内 部 函数 为 CAsL 提 供 了 运行 时 支持 ， 所 谓 运行 时 支持 是 指 这 些 内 部 函数 会 


被 CASL 的 其 他 功能 函数 调用 ， 因 此 用 户 无 法 使 用 CAS 


新 定义 。 


下 面 先 来 介绍 如 何 查看 CAsL 的 函数 集 ， 最 后 会 结合 示例 向 大 家 


开发 者 可 以 使 


functionlist 语 句 来 查询 CASL 中 的 内 部 函数 : 


新 定义 这 些 函 数 ， 否 则 可 能 会 影响 到 CAs 其 他 一 些 功能 的 正常 运行 。 内 部 函数 集 以 外 的 函数 由 于 并 不 提供 CAsL 的 


慨 示 内 部 函数 与 非 内 部 函数 的 区 别 。 


Ef 


行 时 支持 ， 


因此 可 以 被 开发 者 重 


proc cas; 


functionlist bi; /*bi = build in*/ 


run; 


输出 结果 中 也 给 出 了 函数 的 基本 功能 介绍 ， 大 家 可 以 通过 代码 8.1 的 运行 结果 来 了 解 一 下 CASL 的 内 部 函数 及 其 功能 。 


代码 8.1 ”CASL 的 内 部 函数 


Biltin Functions 


19] clear 


33] exists 


20] tabcolumns 


14] isString : Is value a string 


: Clear a value 


26] tkzstats : tkzstats() 


28] descval : value inventory 

29] vcount return the number of value 
30] sleep : sleep (seconds) 

31] printtable : print table 


: Does a key exist in dictionary 


34] unique : Does a value exist in list 

35] addunique : add value if t does not exist in list 
36] closeconn : close connection 

37] result by type : Create table by type 

38] result_by_col : Create table by col 

41] combine tables : combine tables handling by groups 

42] addbygroup add bygroup to table 

43] descfnc : Prototype for an fnc function 

44] loc : locate value in column 


45] readfile : read filename 
46] readpath : read pathname 


47] add_table_attr : Add attributes to a table 
48] pending result : Read the next result 

49] batchmode : Enter Action into batch mode 
50] reconnect : Drop line and reconnect 

51] cancelaction : cancel the action 


22] addrow : Add row to table 

23] findtable : find the first table in the list 

24] dictionary : Dictionary lookup x = dictionary (value, key) 
25] symputx : symputx (name, value) ; 


2] print : Format a value with given format : <string> = put (x,best2.8) 
5] traceback : traceback 

8] isDouble : Is value a double 

9] isInteger : Is value an integer 

10] isDictionary : Is value a dictionary 

11] isArray : Is value an array 

12] isTable : Is value a table 

13] isList : Is value a list 


15] isBlob : Is value a blob 

16] isType : Is value the type of the 2st arg 

17] dim : Dimensions of variable 

18] newtable : Create a new table (column names array,columns types array) 


: Extract the columns for a table into a dictionary 
21] tabtypes : Extract the types for a table into a dictionary 


不 同 于 内 部 函数 ， 非 内 部 函数 按照 功能 的 不 同 分 成 了 不 同 的 类 别 。 


代码 如 下 : 


查询 的 时 候 首先 可 以 通过 FNC 来 查看 CASL 支 持 的 所 有 函数 类 别 。 


proc cas; 
fnc cate; 
run; 


运行 结果 如 下 : 


array 
bitwise 

char 
combinatorial 
datetime 
distance 
financial 
math 
Probability 
quantile 
random 
special 
statistics 
trig 
truncation 


接 下 来 可 以 进一步 查看 某 一 类 别 下 的 所 有 函数 ， 比 如 math : 


proc cas; 
fnc math; 
run; 


math 类 别 里 的 函数 比较 多 ， 这 里 只 展示 部 分 输出 结果 : 


(math) 


Returns the value of the e constant raised to a specified power. 


fact (math) Computes a factorial. 

gamma (math) Returns the value of the gamma function. 

gcd (math) Returns the greatest common divisor for a set of integers. 

lcm (math) Returns the least common multiple for a set of integers. 

lgamma (math) Returns the natural logarithm of the Gamma function. 

log (math) Returns the natural logarithm (base e) of a numeric value 表达 式 . 


然后 我 们 可 以 进一步 查看 某 一 个 具体 的 函数 ， 比 如 exp 


proc cas; 
fnc exp; 
run; 


结果 中 包含 了 函数 的 参数 和 返回 值 类 型 : 


(math) Returns the value of the e constant raised to 
a specified power. 


double exp (double); 


exp 


在 本 节 的 最 后 ， 我 们 介绍 一 下 内 部 函数 和 其 他 函数 的 区 别 : 内 部 函数 不 可 以 重 写 而 其 


他 函数 可 以 重 写 。 通 过 下 面 这 几 段 代码 ， 大 家 可 以 对 这 个 区 别 有 一 个 更 直观 的 认识 。 代 码 中 我 们 使 


isDouble 和 非 内 部 函数 exp。 第 一 段 代码 中 我 们 先 来 看 看 两 个 函数 原本 的 功能 : 


了 内 部 函数 


proc cas; 
print "isDouble(1)=" isDouble (1); 
print "exp(1)="_exp(1); 

run; 


输出 结果 如 下 : 


isDouble (1) =FALSE 
exp (1)=2.7182818285 


在 第 二 段 代码 中 尝试 去 重 写 这 两 个 函数 : 


proc cas; 
print "isDouble(1)=" isDouble (1); 
print "exp(1)=" exp (1); 


function isDouble (x); 
return "isDouble is redefined"; 
end; 
function exp (x); 
return "exp is redefined"; 
end; 


输出 结果 如 下 : 


isDouble (1)=FALSE 
exp (1)=exp is redefined 


从 结果 可 以 看 出 ， 内 部 函数 jsDouble 无 法 重 写 ， 而 函数 exp 则 修改 成 功 。 


8.3.8 输出 


CASL 使 用 PRINT 语 句 来 把 一 个 或 多 个 表达 式 的 值 打印 到 指定 的 输出 位 置 : 


PRINT 表达 式 < 表达 式 > …7 


表达 式 中 可 以 包含 常量 、 变 量 、 运 算 符 和 函数 。 


CASL 使 用 FILE 语 句 控制 结果 的 输出 位 置 : 


FILE LOG|ODS|filename "文件 路 径 "; 


File 语 句 有 如 下 三 个 选项 。 

“LOG: 将 结果 输出 到 日 志 中 。 

< ODS: 将 结果 输出 到 SAS ODS. 

‘filename: 指定 文件 名 及 其 路 径 ， 将 结果 输出 到 文件 中 。 


在 代码 中 如 果 不 指定 FILE 的 位 置 ， 那 么 不 同 的 变量 或 操作 会 有 不 同 的 默认 输出 位 


。 比 如 在 调 


ACTION 操 作 时 ， 如 果 不 设置 result 变 量 ， 那 么 ACTION 的 执行 结果 会 默认 打印 到 ODS 中 。 


8.4 本 章 小 结 


上 可 以 自 了 


轻松 地 学 习 掌握 更 加 深入 的 知识 和 技能 


本 章 介绍 了 CASL 的 基本 要 素 ， 内 容 包 括 变量 、 表 达 式 、 函 数 、ACTION， 等 等 。 在 介绍 过 程 中 ， 我 们 结合 简 重 


Viya 还 对 外 提供 可 


SAS 的 分 析 平 台 从 SAS Viya 开 始 


的 示例 对 CASL 语 法 进行 了 详细 的 描述 ， 使 大 家 


本 章 将 详细 介绍 如 何 运 
以 Java 语 言 


= 


于 数据 分 析 的 REST Services， 让 更 多 的 不 熟悉 SAS 语 言 的 
AG, FARR 


第 9 章 Fava, Lua, Python#REST API 开 发 基于 SAS Viya 的 应 用 
Java、Lua 和 Python 调 上 
0 何 调 


备 了 使 用 CASL 的 基础 ， 并 且 在 此 基础 之 


9.1 


SAS Viya 提 供 的 REST Services。 


备 了 更 好 的 开放 性 ， 使 得 众多 熟悉 第 三 方 开发 语言 例如 Python、Java 和 Lua 等 的 


SAS Viya 分 析 服务 并 开发 基 了 


户 和 数据 分 析 人 员 可 以 使 
SAS Viya 开 放 平 台 介 绍 


户 能 够 通过 REST APl 来 访问 SAs Viya 的 分 析 服务 。 


FSAS Viya 的 应 用 。 本 章 将 提供 详 引 


在 第 1 章 介绍 SAS Viya 平 台 时 ， 就 提 到 了 开放 性 。 开 发 人 员 不 但 可 以 使 


些 语言 访问 SAS Viya 提 供 的 分 析 服 务 。 同 时 ，SAS 
的 开发 。 正 是 这 种 开放 性 ， 为 编程 人 员 和 数据 科学 家 们 提供 了 更 多 利 
on 


的 样 例 ， 帮 助 大 家 理解 并 快速 掌握 使 用 这 些 语言 调用 SAS Viya 的 强大 分 析 能 力 ， 并 且 


SAS 语 言 进 行 应 用 的 开发 ， 而 且 还 可 以 利用 SAS Viya 所 提供 的 第 三 方 开发 语言 接口 使 用 Python、Java、Lua 及 REST API 进 行 应 
SAS 业 界 领先 的 丰富 目 强大 的 分 析 功能 的 机 会 ， 也 使 得 其 他 系统 可 以 集成 这 种 分 析 能 力 以 丰富 和 完善 其 本 身 的 功能 
分 析 即 服务 和 SAS Viya 开 放 平 台 介绍 
广 为 大 家 熟悉 的 软件 即 服务 (SaaS) 为 最 终 用 户 提供 了 非常 到 位 的 便利 。 软 件 使 用 者 无 须 关 心软 件 的 安装 和 维护 ， 只 需要 将 时 间 和 精力 重点 放 在 如 何 使 
而 分 析 即 服务 (Analytics as a Service, A3S) 是 对 软件 即 服务 (SaaS) 的 进一步 升级 ， 最 终 用 户 只 需要 关心 如 何 使 
SAS Viya 就 提供 了 这 种 分 析 服 务 ， 使 用 该 服务 的 用 户 不 用 关心 该 服务 是 如 何 部 署 、 如 何 配置 和 如 何 维护 的 。 
对 于 不 同 的 语言 ，SAS Viya 提 供 的 分 析 服务 是 通过 不 同 的 技术 来 实现 的 ， 具 体 如 下 。 


分 析 服 务 进行 数据 分 析 即 可 ， 而 不 上 


关心 分 析 软 件 的 运行 和 维护 。 
- 对 于 Lua 和 Python 语言 ，SAS Viya 基 于 SWIG 技 术 ， 通 过 SWAT 客 户 端 ， 提 供 了 丰富 的 API 供 Lua 和 Python 使 用 


软件 提供 的 服务 来 解决 


“ 对 于 其 他 支持 REST API 的 第 三 方 语言 ，SAS Viya 提 供 了 REST Services。 使 得 这 些 


己 的 业务 问题 即 可 。 
9.1.2 SWAT 架构 介绍 


三 方 语言 准备 Json 请 求 数据 以 调用 REST API， 并 且 需 要 解析 REST Services 的 Json 格 式 的 响应 数据 以 获取 分 析 的 结果 
“ 对 于 其 他 语言 ， 比 如 R、Ruby 等 ，SAS Viya 也 会 提供 相应 的 访问 接口 。 本 书 的 后 续 版 本 将 会 继续 介绍 这 方面 的 内 容 


+ 对 于 Java 语 言 ，SAS Viya 提 供 了 客户 端 jar 文 件 。 通 过 集成 ANTLR runtime, Google Protocol Buffers、Json 等 技术 ， 为 Java 语 言 提供 了 丰富 的 API 调 用 。 


SWAT (SAS Scripting Wrapper for Analytics Transfer) ， 是 
同类 型 的 语言 包括 常 


SWIG (Simplified Wrapper and Interface Generator) 开发 的 。 简 生 


的 脚本 编译 语言 例如 Python 逢 


不 同 语言 开发 的 


可 以 通过 REST Services 的 调用 来 获取 SAS Viya 的 分 析 能 力 。 和 对 Java、Lua、Python 的 支持 不 同 的 是 ， 该 技术 需要 第 


本 编译 语言 (比如 C# 和 Lua) 


和 地 说 ，SWIG 是 一 种 开发 工 : 
QPHP) FRIERI 
SAS 提 供 了 SWAT Python 和 SWAT Lua 客 户 端 。 具 体 的 下 载 和 配置 方法 ， 请 参考 9.3 节 和 9.4 节 | 
以 Lua 为 例 ， 在 配置 SWAT Lua 客 户 端 之 后 的 环境 中 ， 其 目录 结构 为 : 


于 访问 CAS 并 与 之 交互 的 一 系列 模块 的 通用 名 称 ， 比 如 SWAT Lua 客 
， 它 能 够 帮助 使 


户 端 、SWAT Python 客户 端 等 。SWAT 是 基于 


C 或 C++ 开 发 的 软件 与 其 他 各 种 高 级 编程 语言 进行 嵌入 联接 。SWIG 能 应 


于 各 种 不 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../lua-swat-1.0.0 


http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ deps 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 


csv.lua 


可 以 看 到 SAS 提 供 的 SWAT 的 支持 文件 ， 包 括 .so 文件 、swat.lua 文 件 ， 还 有 第 三 方 的 程序 包 ， 比 如 middleclass.lua、csv.lua、ee5_base64.lua 等 。 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../lib 


http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 


ee5 base64.1ua 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16482/OEBPS/Text/../ 更 多 .so 文件 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 


middleclass. lua 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../tk 


lua53swat .so 


luaswat.so 


http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 


tkluaswat.so 
gendevio.so 
€ generext.so 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../ 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../swat.lua 
打开 swat.Iua 文 件 ， 可 以 看 到 该 文件 提供 了 非常 多 的 函数 。 其 中 包括 9.3.3 节 上 


htclient.so 


9.1.3， 基 于 ACTION 及 ACTION 集 合 的 数据 挖 气 和 机 器 学 习 


到 的 数据 加 载 函数 upload。SWAT 封 装 了 比较 多 的 底层 技术 细节 ， 提 供给 开发 人 员 的 是 简洁 易 上 


的 APl。 


Lua、Python 或 REST APl 来 调用 ACTION 进 行 数 据 分 析 。 


ACTION 集 


在 SAS Viya 平 台中 ， 所 有 提交 给 CAS 服 务 器 处 理 的 任务 都 称 为 ACTION。ACTION 按 照 实现 的 功能 进行 了 分 组 ， 进 而 定义 每 个 组 为 一 个 ACTION 集 合 。 


SAS Viya 为 第 三 方 开发 语言 提供 的 分 析 服 务 也 是 通过 不 同 的 ACTION 来 完成 的 ， 比 如 进行 描述 性 统计 的 ACTION summary， 进 行 回归 分 析 的 ACTION regression。 最 终 用 户 可 以 通过 CASL、Java、 


基于 ACTION 和 ACTION 集 合 ，SAS Viya 为 外 部 语言 的 调用 提供 了 清楚 易 识别 的 命名 规则 。 


在 使 用 Lua 调 用 描述 性 统计 分 析 的 ACTION 时 候 ， 其 命名 规则 为 s: simple summary, 
的 名 字 ，summary 为 ACTION 的 名 字 。 进 行 回归 分 析 的 命名 规则 为 s: simple _regression。 编 程 人 员 可 以 很 方便 地 识别 并 使 用 ACTION 进 行 统计 分 析 。 


其 中 ，s 为 Lua 客 


户 端 和 CAS 服 务 器 端 建立 的 连接 对 象 ， 可 以 通过 该 对 象 调用 CAS 服 务 器 端的 Action。simple 为 


对 Python 开发 人 员 来 讲 ， 调 用 ACTION 也 是 相同 的 命名 规则 ， 比 如 使 用 Python 进行 描述 性 统计 分 析 的 语法 为 conn.simple.summary。 


在 使 用 REST API 对 ACTIOIN 进 行 调 用 时 ， 其 endpoint 中 也 是 很 清楚 地 写 册 


名 字 simple.summary: 


比如 ， 在 进行 描述 性 统计 分 析 时 ， 需 要 调 


String endpoint = "http://host:8777/cas/sessions/session UUID/actions/simple.summary"; 


上 了 ACTION 集 和 ACTION 的 名 字 。 比 如 使 用 REST API 进 行 描述 性 统计 分 析 的 endpoint 中 就 包含 了 ACTION 集 合 和 ACTION 的 


Java 客 户 端 稍微 有 些 不 同 。 在 用 Java 客 户 端 API 调 用 ACTION 进 行 统计 分 析 的 时 候 ， 需 要 初始 化 ACTION 类 ， 该 类 的 名 字 虽 然 和 和 ACTION 不 完全 一 致 ， 但 也 可 以 很 清楚 地 看 出 要 使 用 是 哪 一 个 ACTION。 


SummaryOptions options = new SummaryOptions (); 


summary ACTION， 初 始 化 的 类 为 SummaryOptions: 


而 进行 回归 分 析 的 时 候 ， 需 要 调用 regression ACTION， 初 始 化 的 ACTION 类 为 RegressionOptions: 


RegressionOptions options = new RegressionOptions () 7 


具体 的 ACTION 和 Java 类 的 对 应 关系 ，9.2.2 节 将 有 更 详细 的 描述 。 


参数 有 较 大 的 不 同 。 


最 后 ， 对 于 每 个 不 同 的 ACTION，， 


体 细节 可 以 参考 SAS Viay 提 供 的 ACTION 及 : 


https://developer.sas.com/apis/cas/actions.html 


9.2 用 Java 开 发 基于 SAs Viya 的 应 用 


9.2.1 系统 需求 及 开发 环境 配置 


对 于 使 用 Java 开 发 基于 SAS Viya 应 用 的 客户 ，SAS 提 供 了 客户 端 Jar 文 件 (cas-client-3.1.4jar) , 


体 的 参数 使 用 文档 ， 可 以 在 下 面 的 链接 中 找到 : 


户 可 通过 使 用 Java 客 户 端 APl 来 调用 SAS CAS 服 务 。 在 该 Jar 文 件 中 ，SAS 提 供 了 丰富 的 客户 端 API, 


使 得 用 户 可 以 方便 地 调用 CAS 服 务 器 端的 分 析 服 务 功能 。 该 Jar 文 件 可 以 在 SAS Support 网 站 上 获取 到 : 


http://support.sas.com/downloads/package.htm? pid=1976 


在 该 页 面 中 ，SAS 还 提供 了 详细 的 Java 客 户 端 的 样 例 程 序 ， 其 中 包括 如 何 连 接 CAS 服 务 器 ， 如 何 调用 CAS 服 务 器 端 ACTION， 如 何 对 结果 进行 解析 等 。 


除了 客户 端 Jar 文 件 cas-client-3.1.4.jar 文 件 以 外 ，CAS Java 客 户 端 还 必须 满足 以 下 系统 需求 。 


-JRE 8 


. 运行 时 第 三 方 支持 文件 


- ANTLR runtime (3.5.2) https://mvnrepository.com/artifact/org.antlr/antlr-runtime /3.5.2 


* Google Protocol Buffers (2.6.1) http://mvnrepository.com/artifact/com. google. protobuf/protobuf-java 


+ json-20141113https: //mvnrepository.com/artifact/org.json/json/20141113 


在 CAS REST Services 调 用 时 需要 json-20141113。 因 为 对 CAS REST Services 调 


注意 ”本 书 中 的 Java 程 序 在 且 仅 仅 在 Eclipse Neon.1a Release 


(4.6.1) 中 调试 通过 。 


的 系统 请 求 和 结果 者 


在 建立 客户 端 和 服务 器 端的 连接 时 ， 有 多 种 方法 可 以 保存 


于 连接 的 用 户 和 密码 信息 。 比 如 ， 


是 Json 格 式 的 数据 ， 因 此 需要 对 Json 格 式 的 数据 进行 解析 。 


可 以 将 用 户 和 密码 作为 参数 : 


CASClientInterface client = new CASClient("host", 5570, "sasuser", "Test123"); 


当然 了 ,为 了 使 密码 以 密 文 方式 呈现 ， 可 以 使 用 SAS 9 中 的 proc pwencode 对 密码 进行 加 密 。pwencode 是 SAS 提 供 的 对 密码 进行 加 密 的 过 程 步 ， 支 持 BASE64、AES 等 加 密 算法 ， 代 码 如 下 : 


filename pwfile 'c:\users\cas'; 
proc pwencode in='Test123' out=pwfile; 
run; 


运行 上 述 代 码 之 后 ， 在 文件 c: \users\cas 中 可 以 看 到 字符 


“Test123” 加 密 之 后 的 字符 串 “{SAS002}65CC6A184655B9EC2D04B4915987EA62”。 使 用 加 密 之 后 的 密码 建立 CAS 服 务 器 连接 的 代码 


以 同样 使 


CASClientInterface client = new CASClient("host", 5570, "sasuser", "{SASO02}65CC6A184655B9FC2D04B4915987EA62") ; 


另外 一 种 保存 用 户 密码 的 方法 是 ， 以 Windows 为 例 ， 在 当前 用 户 的 Java 运 行 环境 userhome 


上 述 经 过 pwencode 过 程 步 加 密 之 后 的 字符 串 ，_authinfo 的 文件 内 容 为 : 


属性 对 应 的 


录 下 生成 authinfo 文 件 ， 并 且 需 要 设置 文件 权限 ， 使 得 当前 用 户 是 该 文件 的 所 有 者 。 密 码 可 


default user sasuser password {SAS002}3CD4EA1E34004E86202461DF 


在 Windows 系 统 中 ， 可 以 执行 如 下 代码 来 获取 使 用 java 运行 环境 的 user.home 属 性 对 应 的 值 : 


String homeDir = System.getProperty("user.home") ; 


9.2 用 Java 开 发 基于 SAs Viya 的 应 用 


9.2.1 系统 需求 及 开发 环境 配置 


对 于 使 用 Java 开 发 基于 SAS Viya 应 用 的 客户 ，SAs 提 供 了 客户 端 Jar 文 件 (cas-client-3.1.4.jar) ， 用 户 可 通过 使 用 Java 客 户 端 API 来 调用 SAS CAS 服 务 。 在 该 jar 文件 中 ，SAS 提 供 了 丰富 的 客户 端 AP|， 
使 得 用 户 可 以 方便 地 调用 CAS 服 务 器 端的 分 析 服务 功能 。 该 Jar 文 件 可 以 在 SAs Support 网 站 上 获取 到 : 


http://support.sas.com/downloads/package.htm? pid=1976 


在 该 页 面 中 ，SAS 还 提供 了 详细 的 Java 客 户 端的 样 例 程序 ， 其 中 包括 如 何 连接 CAS 服 务 器 ， 如 何 调用 CAS 服 务 器 端 ACTION， 如 何 对 结果 进行 解析 等 。 
除了 客户 端 Jar 文 件 cas-client-3.1.4.jar 文 件 以 外 ，CAS Java 客 户 端 还 必须 满足 以 下 系统 需求 。 

.JRE8 

“ 运行 时 第 三 方 支持 文件 

- ANTLR runtime (3.5.2) https://mvnrepository.com/artifact/org.antlr/antlr-runtime/3.5.2 

- Google Protocol Buffers (2.6.1) http://mvnrepository.com /artifact/com.google.protobuf/protobuf-java 


+ json-20141113https://mvnrepository.com/artifact/org.json/json/20141113 


在 CAS REST Services 调 用 时 需要 json-20141113。 因 为 对 CAS REST Services 调 用 的 系统 请 求 和 结果 都 是 Json 格 式 的 数据 ， 因 此 需要 对 Json 格 式 的 数据 进行 解析 。 


注意 ”本 书 中 的 Java 程 序 在 且 仅仅 在 Eclipse Neon.1a Release (4.6.1) 中 调试 通过 。 


在 建立 客户 端 和 服务 器 端的 连接 时 ， 有 多 种 方法 可 以 保存 用 于 连接 的 用 户 和 密码 信息 。 比 如 ， 可 以 将 用 户 和 密码 作为 参数 : 


CASClientInterface client = new CASClient("host", 5570, "sasuser", "Test123"); 


当然 了 ,为 了 使 密码 以 密 文 方式 呈现 ， 可 以 使 用 SAS 9 中 的 proc pwencode 对 密码 进行 加 密 。pwencode 是 SAS 提 供 的 对 密码 进行 加 密 的 过 程 步 ， 支 持 BASE64、AES 等 加 密 算法 ， 代 码 如 下 : 


filename pwfile 'c:\users\cas'; 
proc pwencode in='Test123' out=pwfile; 
run; 


运行 上 述 代 码 之 后 ， 在 文件 c: \users\cas 中 可 以 看 到 字符 串 “Test123” 加 密 之 后 的 字符 串 “{SAS002}65CC6A184655B9EC2D04B4915987EA62”。 使 用 加 密 之 后 的 密码 建立 CAS 服 务 器 连接 的 代码 


CASClientInterface client = new CASClient ("host", 5570, "sasuser", "{SAS002}65CC6A184655B9EC2D04B4915987EA62") ; 


另外 一 种 保存 用 户 密码 的 方法 是 ， 以 Windows 为 例 ， 在 当前 用 户 的 Java 运 行 环 境 user.home 属 性 对 应 的 目录 下 生成 authinfo 文 件 ， 并 且 需 要 设置 文件 权限 ， 使 得 当前 用 户 是 该 文件 的 所 有 者 。 密 码 可 
以 同样 使 用 上 述 经 过 pwencode 过 程 步 加 密 之 后 的 字符 串 ，_authinfo 的 文件 内 容 为 : 


default user sasuser password {SAS002}3CD4EA1E34004E86202461DF 


在 Windows 系 统 中 ， 可 以 执行 如 下 代码 来 获取 使 用 Java 运行 环境 的 user.home 属 性 对 应 的 值 : 


String homeDir = System.getProperty("user.home") ; 


9.2.2 ”第 一 个 ACTION 调 用 : 调用 ServerStatus 查 看 服务 器 状态 


正如 前 面 所 介绍 的 ，SAS Viya 通 过 ACTION 对 外 提供 分 析 的 接口 ， 首 先 来 看 一 下 如 何 调用 ACTION。 


下 面 的 代码 9.1， 先 建立 和 CAS 服 务 器 的 连接 ， 然 后 调用 ServerStatus ACTION 来 查看 CAS 服 务 器 的 状态 。 在 建立 和 CAS 服 务 器 的 连接 中 ， 需 要 CAS 服 务 器 和 端口 作为 输入 参数 。 这 里 ，CAS 服 务 器 是 
CAS Controller 服 务 器 ， 服 务 器 的 端口 可 以 在 服务 器 端 文件 /opt/sas/viya/config/etc/cas/default/casconfig.lua 中 与 cas.port 属 性 相对 应 的 值 中 得 到 。 不 同 的 环境 下 ,该 文件 所 在 的 路 径 可 能 会 有 所 不 同 。 
在 运行 代码 之 前 ， 根 据 不 同 的 环境 ， 需 要 修改 CAS 服 务 器 、 用 户 和 密码 等 连接 参数 。 


在 代码 9.1 的 开始 部 分 ， 所 有 程序 中 涉及 的 类 都 需要 导入 。 比 如 程序 中 用 到 了 CASClient-Interface 类 、CASClient 类 、ServerStatusOptions 类 等 。 其 类 的 路 径 为 com.sas.cas， 是 在 9.2.1 节 中 下 载 的 jar 
文件 中 类 的 路 径 。 如 果 不 导 入 这 些 类 ，Eclipse 会 提示 该 类 不 能 被 识别 的 错误 信息 ， 代 码 如 下 : 


代码 9.1 获取 CAS 服 务 器 信息 


import com.sas.cas.CASActionResults; 

import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASValue; 

import com.sas.cas.actions.builtins.ServerStatusOptions; 


public class ServerStatus_Example { 
public static void main(String[] args) { 
try { 

CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 

ServerStatusOptions options = new ServerStatusOptions () 7 

CASActionResults<CASValue> results = client.invoke (options) ; 

for (int i = 0; i < results.getResultsCount(); i++) { 
System. out.println (results.getResult (i)); 


client.close (true) ; 
} catch (Exception ex) { 
ex.printStackTrace () ; 


} 


在 程序 的 输出 结果 中 ， 可 以 看 到 CAS controller 服 务 器 和 worker 服 务 器 的 信息 : 


{ 


server=server 


节点 计数 操作 总 数 
1 
nodestatus=nodes 
节点 名 称 角色 运行 时 间 CR) 正在 运行 已 延迟 
ssscrdlax07 worker 0.165 0 0 
ssscrdlax08 worker 0.174 0 0 
ssscrdlax06 controller 0.169 0 0 


3 行 
} 


在 该 程序 中 ， 首 先 初始 化 对 象 ServerStatusOptions， 然 后 通过 客户 端的 invoke 函 数 实现 对 ACTION serverStatus 的 调用 ， 语 法 为 invoke (options) 。 整 个 过 程 很 简单 ， 是 因为 CAS Java incas- 
client-3.1.4.jar 提 供 了 丰富 的 函数 ， 完 成 了 其 他 的 、 大 部 分 的 、 与 服务 器 端的 交互 及 对 响应 结果 的 解析 工作 。 下 面 对 代码 9.1 中 用 到 的 类 进行 一 个 简单 的 介绍 。 


- CASClient: 是 用 于 建立 Java 客 户 端 和 CAS 服 务 器 端 连接 的 对 象 。 
© CASActionResults: 是 action 返 回 结果 的 集合 。 
+ ServerStatusOptions: 是 action Bulletin.Serverstatus 对 应 的 Java 对 象 。 
:CASClient 对 象 的 invoke 函 数 用 来 调用 已 经 初始 化 的 ACTION 对 应 的 Java 类 ， 以 达到 调用 ACTION 的 目的 。 语 法 为 invoke (已 经 初始 化 的 ACTION Java 对 象 ) o 
随 之 而 来 的 问题 就 是 : 如 何 知道 各 个 ACTION 对 应 哪个 java 对象” 比如 ACTION 集 simple 包 含 如 表 9.1 所 示 的 ACTION， 每 一 个 ACTION 对 应 的 Java 对 象 是 什么 ”每 个 对 象 有 哪些 方法 ? 


表 9.1 ACTION 集 simple 包 含 如 下 的 ACTION (部 分 ) 


F5 ACTION 名 字 
] Correlation 
2 CrossTab 
3 Distinct 
4 Freq 
2 GroupBy 


在 CAS Java 客 户 端的 Javadoc 文 档 中 ， 可 以 看 到 包 com.sas.cas.actions.simple 下 面 的 类 : 


com.sas.cas.actions.simple 


Packages 
com.sas.cas.actions.session Classes 


com.sas.cas.actions.sessionProp 


com.sas.cas.actions.severity Se 


com sas cas actions saComp DistinctOptions 
FreqOptions 
com.sas.Cas.actions.simpleForecast | GroupByOptions 
com.sas.cas.actions.smartData MdSummaryOptions 


图 9.1 ACTION 4com.sas.cas.actions.simple P @& 449 & 


从 图 9.1 的 左边 可 以 看 到 列 出 了 包 com.sas.cas.actions.simple， 右 边 列 出 了 该 包 下 包含 的 类 。 可 以 看 到 CrossTabOptions 类 ， 就 是 action simple.CrossTab 对 应 的 Java 类 。 根 据 ACTION 的 名 字 ， 就 可 以 
发 现 对 应 的 Java 类 。 


继续 点 击 类 CrossTabOptions， 可 以 看 到 该 类 的 构造 函数 、 方 法 等 信息 ， 如 图 9.2 和 图 9.3 所 示 。 


Constructor Summary 


CrossTabOptions () 


CrossTabOptions (CASAction0ptions options) 


图 9.2 ”类 CrossTabOptions 的 构造 函数 


Method Summary 


~All Methods — Instance Methods Concrete Methods 


Modifier and Type 

java. lang. Boolean 
CrossTabOptions. AGGREGATOR 
CrossTabOptions. AGGREGATOR 
java. lang. Boolean 

java. lang. Boolean 

java. lang. String 

java. lang. String 
java. lang. Integer 

java. lang. Boolean 

java. lang. Boolean 

java. lang. Long 


图 9.3 类 CrossTabOptions 中 包含 的 方法 


然后 ， 查 看 action simple.crossTab 的 CASL 语 法 ， 可 以 看 到 需要 设置 的 属性 如 图 9.4 所 示 。 


Method and Description 
getAcrossBy() 

getAgg () 
getAggregator() 


getAssociation() 


getCol Format () 
getColNBins () 
getDescending () 
getFul lTable () 


getGroupByLimit () 


CASL Syntax 
result =results> <status=rc> / 


acrossBy=TRUE | FALSE 


aggregator="CSS" | "CV" | "MAX" | "MEAN" | "MIN" | "N" | 


association=TRUE | FALSE 
chiSq=TRUE | FALSE 
col="variable-name" 
colFormat="string" 
coINBins=integer 
descending=TRUE | FALSE 
fullTable=TRUE | FALSE 


groupByLimit=64-bit-integer 


图 9.4 Action simple.crossTab #3 CASLi& 7% 


对 比 一 下 action simple.crossTab 的 Java 对 象 的 函数 和 CASL 语 法 ， 可 以 发 现在 Java 对 象 中 ， 对 于 每 一 个 CASL 中 间 的 属性 都 有 对 应 的 set 和 get 方 法 。 这 样 ， 在 初始 化 CrossTabOptions 之 后 ， 可 以 调用 该 
对 象 的 set 和 get 方 法 对 该 对 象 的 属性 进行 赋值 和 取 值 的 操作 。 最 后 ， 通 过 CASClient 的 invoke 函 数 调 用 初始 化 之 后 的 ACTION Java 对 象 ， 达 到 调用 ACTION 的 目的 。 以 action simple.crossTab 为 例 ， 若 初始 
化 后 的 Java 对 象 为 crossTabOption， 则 调用 的 语法 为 CASClient.invoke (crossTabOption) 。 


根据 上 述 规则 ， 就 可 以 找到 所 有 CAs 服 务 器 端 ACTION 对 应 的 Java 对 象 、 如 何 初 始 化 该 对 象 ， 以 及 如 何 调用 该 对 象 ， 进 而 通过 java 实现 对 CAS 服 务 器 中 ACTION 的 调用 。 


下 面 再 介绍 一 下 CAS 服 务 器 和 客户 端 会 话 。 


在 代码 9.1 中 ， 在 创建 了 CASClient 对 象 之 后 ， 没 有 调用 CAS 服 务 器 端的 ACTION 之 前 ， 客 户 端 和 服务 器 端的 会 话 还 没有 建立 起 来 。 看 下 面 的 代码 9.2， 在 调用 ACTION serverStatus 之 前 ， 客 户 端 和 服务 
器 端的 会 话 UUID 为 空 ， 在 调用 之 后 ,会 话 才 建立 ， 本 次 连接 的 会 话 ID 才 能 获取 到 : 


代码 9.2 ”获取 Session ID 


import com.sas.cas.CASActionResults; 

import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASValue; 

import com.sas.cas.actions.builtins.ServerStatusOptions; 


public class ServerStatus_Example { 
public static void main(String[] args) { 
try { 
CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 

System.out .printin (" 调 用 action 前 会 话 ID: 
"+client.getSessionID()); 

ServerStatusOptions options = new ServerStatusOptions (); 

CASActionResults<CASValue> results = client.invoke (options) ; 

System.out.println (" 调 用 action 后 会 话 ID: 
"+client.getSessionID()); 

client.close (true) ; 


} catch (Exception ex) { 
ex.printStackTrace () ; 
} 


程序 的 输出 如 下 : 


调用 前 会 话 ID: null 
调用 后 会 话 ID: b2294c2e-a579-694c-8021-248d9f6555be 


9.2.3 用 Java 将 数据 加 载 到 CAs 服 务 器 


在 进行 数据 分 析 之 前 ， 数 据 的 加 载 和 准备 工作 是 一 个 必需 的 环节 。 下 面 就 来 看 一 下 怎么 调用 CAs 的 ACTION 进 行 数据 的 加 载 。 在 下 面 的 代码 9.3 中 ， 有 如 下 几 个 关键 步骤 。 


“ 初始 化 CASClient 对 象 和 CAS 服 务 器 进行 连接 。 
:列举 将 要 加 载 的 数据 信息 ， 比 如 文件 名 、 分 割 符 ， 是 否 加 载 成 全 局 表 等 。 


- 初始 化 AddTableOptions 对 象 ， 指 定 将 要 加 载 的 数据 信息 。 


代码 9.3 中 使 用 的 数据 orsales.csv 可 以 从 support.sas.com 下 载 。 链 接地 址 为 : http://support.sas.com/documentation/onlinedoc/viya/examples.htm 


具体 如 代码 9.3 所 示 : 


代码 9.3 ”加 载 数据 到 CAS 服 务 器 


import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.actions.table.AddTableOptions; 
import com.sas.cas.actions.table.Addtablevariable; 
import com.sas.cas.io.CSVDataTagHandler; 

import com.sas.cas.messages .CASMessageHeader; 


public class AddCcSVSample Simple { 
public static void main(String[] args) throws Exception { 


try { 
CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 
/* 文 件 的 基本 信息 */ 


String fileName = "C:\\data\\orsales.csv"; 
boolean header = true; 

char delim = ','; 

String tableName = "orsales"; 

boolean promote = true; 

boolean replace = false; 


/* 计 算 列 的 长 度 */ 


CSVDataTagHandler hl = new CSVDataTagHandler (fileName, 
delim, header) ; 


Addtablevariable[] vars = hl.guessCSVVars (20); 


int offset = 0; 

for (int i = 0; i < vars.length; i++) { 
Addtablevariable var = vars[i]; 
var.setOffset (offset) ; 
offset += var.getLength (); 
System.out.println (vars [i]); 


} 

/* 初 始 化 加 载 表 的 action*/ 

AddTableOptions options = new AddTableOptions (); 
options.setTable (tableName) ; 

options.setVars (vars) ; 

options.setCaslib ("CASUSER (cfgsas1)") ; 
options.setRecLen (offset) ; 

options.setPromote (promote) ; 

options .setReplace (replace) ; 


options .setMessageTagHandler (CASMessageHeader.TAG_DATA, 
hl); 


/* 调 用 action, 加 载 数据 */ 

client.invoke (options) ; 

/* 关 闭 连接 */ 

client.close (true); 

} catch (Exception ex) { 
ex.printStackTrace () ; 

} 


在 代码 9.3 中 ，“boolean promote=true; " #8 7 MENT globalfCASAFAY 


promote 人 参数 设置 为 false。 


数据 加 载 完毕 后 ， 可 以 在 SAS Studio 中 运行 CASL 查 看 该 表 的 信息 : 


居 表 ， 在 其 他 的 session 中 也 是 可 见 并 可 用 的 。 如 果 只 是 想 加 载 一 个 当前 session 范 围 的 数据 表 ， 则 需要 将 


cas mysess; 
proc casutil incaslib=casuser; 


list tables ; 
quit; 
上 述 程序 运行 的 结果 如 图 9.5 所 示 。 


CAS 逻辑 库 CASUSERI(cfgsas1) 的 表 信息 


2017 年 01 月 17 日 22 时 27 分 51 种 | 201755015178 228427 3519) 


图 9.5 ”加 载 数 据 表 orsales 信 息 显示 


当然 ， 也 可 以 通过 Java 程 序 调用 ACTION Tablelnfo 来 查看 已 经 加 载 的 数据 表 信息 。 具 体 如 代码 9.4 所 示 : 


代码 9.4 获取 CAs 表 信息 


import com.sas.cas.CASActionOptions; 

import com.sas.cas.CASActionResults; 

import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASValue; 

import com.sas.cas.actions.table.TableInfoOptions; 


public class TableInfo { 
public static void main(String[] args) throws Exception { 
try { 
/* 初 始 化 CASClient 对 象 */ 
CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 
String tableName = "orsales"; 


/* 初 始 化 action TableInfoOptions*/ 
TableInfoOptions tableInfoOptions = new TableInfoOptions (); 
tableInfoOptions.clear(); 


if (tableName != null) { 
tableInfoOptions.setTable (tableName) ; 
} 
tableInfoOptions.setCaslib ("CASUSER") ; 
tableInfoOptions.addActionFlags ( 
CASActionOptions.FLAGS_RETURN_RESULTS_ON_EXCEPTION) ; 


/* 调 用 aciton*/ 
CASActionResults<CASValue> results = 
client. invoke (tableInfoOptions) ; 


/* 输 出 数据 结果 */ 
for (int i = 0; i < results.getResultsCount(); i++) { 
System.out .Println (results.getResult (i)); 


} 
/* 关 闭 连接 */ 
client.close (true) ; 
} catch (Exception ex) { 
ex.printStackTrace () ; 
i 


上 述 程序 运行 的 部 分 结果 如 图 9.6 所 示 。 


{ 
TableInfo=TableInfo CAS i243 CASUSER(cfgsas!) 的 表 信 息 
Name Rows Columns Encoding 创建 时 间 上 次 修改 时 间 


ORSALES 912 8 utf-8 2017 年 01 月 17 日 2204274514} 2017201 F178 22 时 27 分 51 种 
1 行 


96 显示 已 加 载 表 的 结果 


注意 ”Global 的 数据 表 不 能 重复 加 载 ， 否 则 会 出 现 如 下 错误 信息 。 
“5 ERROR: 提升 的 目标 表 “ORSALES” 已 经 存在 。 请 指定 另 一 个 名 称 。”。 
在 重新 加 载 之 前 ， 需 要 删除 已 经 存在 的 表 ， 具 体 步 骤 请 参考 第 3 章 CAS 的 数据 读 写 和 管理 。 也 可 以 运行 如 下 代码 9.5 进 行 删除 。 


代码 9.5 ”删除 CAS 服 务 器 中 的 表 


import com.sas.cas.CASActionResults; 

import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASValue; 

import com.sas.cas.actions.table.DropTableOptions; 
import com.sas.cas.actions.table.TableInfoOptions; 


public class DropCASTable{ 
public static void main(String[] args) throws Exception { 


try { 

= CASClientInterface client = new CASClient ("host", 5570, 
"user", "password"); 

SIRMI RACH ont REN Javari Se, PSE EMIRI RTENE EMRA / 


DropTableOptions dropTableOption = new DropTableOptions () 7 
dropTableOption.setCaslib ("CASUSER") ; 
dropTableOption. setName ("ORSALES") ; 


/* 调 用 删除 表 Action*/ 

client.invoke (dropTableOption) ; 

/* 初 始 化 TableInfoOptions 对 象 */ 

TableInfoOptions optionsTableInfo = new TableInfoOptions(); 
optionsTableInfo.setCaslib ("CASUSER") ; 
optionsTableInfo.setName ("ORSALES") ; 


/* 调 用 Action TableInfo, 显示 表 的 信息 */ 
CASActionResults<CASValue> results = 
client. invoke (optionsTableInfo) ; 
for (int i = 0; i < results.getResultsCount(); i++) { 
System. out.println (results.getResult (i) ); 


client .close (true) ; 

} catch (Exception ex) { 
ex.printStackTrace () ; 

} 


如 果 已 经 删除 了 表 ， 那 么 在 执行 Tablelnfo ACTION 的 时 候 ， 会 提示 表 不 存在 。 所 以 上 述 程序 的 执行 结果 中 可 以 看 到 如 下 信息 : 


com.sas.cas.CASException: 表 "ORSALES" 无 法 在 Cloud Analytic Services 的 CAS 逻辑 库 "CASUSER (sasdemo) "中 找到 。 (severity=2 reason=0 statusCode=2710003) 
5 ERROR: 表 "ORSALES" 无 法 在 Cloud Analytic Services 的 CAS 逻辑 库 "CASUSER (sasdemo) "中 找到 。 

5 ERROR: 该 操作 因 错 误 而 停止 。 

debug=0x887ff803: 


如 果 需 要 查看 表 中 详细 的 数据 信息 ， 那 么 可 以 调用 ACTION Fetch， 具 体 如 代码 9.6 所 示 : 


代码 9.6 ”获取 CAS 表 数据 的 内 容 


import 
import 
import 
import 
import 
import 
import 


public 


com,sas.cas.CASActionResults; 
com.sas.cas.CASClient; 

com. sas.cas.CASClientInterface; 

com. sas.cas.CASTable; 

com, sas.cas.CASValue; 
com.sas.cas.actions.Castable; 

com. sas.cas.actions.table.FetchOptions; 


class Castable_ Simple { 


public static void main(String[] args) throws Exception { 


该 段 程序 运行 的 结果 中 显示 了 orsales 表 中 的 具体 数据 ， 下 面 的 结果 中 显示 了 前 5 行 的 数据 。 其 中 最 左边 一 列 是 行 号 。 返 


CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 
FetchOptions options = new FetchOptions (); 
Castable tableParms = new Castable(); 
tableParms.setName ("orsales") ; 
tableParms.setCaslib ("CASUser") ; 


// 设 定 需要 获取 的 列 的 信息 

String[] vars ={"Year", "Quarter", "Product Line", 
"Product_Category", "Total Retail _Price"}; 

if (vars != null) { 


tableParms.setParameter (Castable.KEY VARS, vars); 


} 
// 为 Fetch action 设 置 参数 
options .setTable (tableParms) ; 
options.setSasTypes (false) ; 
options.setTo (new Long (30) ); 
// 调 用 Fetch action， 并 解析 返回 的 数据 
CASActionResults<CASValue> results = client.invoke (options) ; 
if (results.getResultsCount() > 0) { 
CASTable t = (CASTable) results.getResult (0) .getValue(); 
int n = Math.min(100, t.getRowCount ()); 
for (int row = 0; row < n; rowt+) { 
StringBuffer sb = new StringBuffer (); 
for (int col = 0; col < t.getColumnCount(); col++) { 
if (col > 0) 
sb.append(","); 
sb.append(t.getStringAt (row, col)); 
} 
System.out .println (sb) ; 
} 


client .close (true) ; 


回 


"Product Line"、 "Product_Category", "Total_Retail_Price "。 


的 数据 列 在 代码 9.6 中 已 经 做 了 定义 ， 总 共 是 5 列 : "Year", "Quarter", 


171999, 
2,1999. 
3,1999. 
4,1999. 
5,1999. 


0,1999Q1,Children,Children Sports, 8990.9 
0,1999Q1,Children,Children Sports, 18768.8 
0,1999Q1,Children,Children Sports, 12996.2 
0,1999Q1, Children, Children Sports, 3339.3 
0,1999Q1,Children,Children Sports,13219.6 


Fetch ACTION 默 认 返 回 的 数据 行 数 是 前 20 行 。 如 果 需 要 返 


回 


更 多 数据 ， 则 需要 调用 函数 setTo 设 置 新 的 参数 值 。 例 如 ， 如 果 希 望 返 回 前 30 条 数据 ， 则 代码 为 : 


options.setTo(new Long (30) ) 7 


9.2.4 调用 ACTION 进 行 描述 性 统计 分 析 


始 。 


到 目前 为 止 ， 我 们 已 经 知道 了 怎么 运行 Java 程 序 调用 CAS ACTION ， 那 么 怎么 调用 CAS ACTION 加 载 和 查看 数据 呢 。 下 面 进一步 看 一 下 如 何 调 


在 下 面 的 代码 中 ， 调 


+ 初始 化 SummaryOptions 对 象 。 该 对 象 对 应 的 就 是 summary ACTION. 


“ 初始 化 SummaryOptions.SUBSET 数 组 ， 指 定 将 要 进行 的 描述 性 统计 分 析 ， 比 如 最 大 值 、 标 准 差 等 。 


“初始 化 Castable 对 象 ， 指 定 将 要 分 析 的 数据 。 


+ 初始 化 Casinvardesc 数 组 ， 指 定 需要 分 析 的 列 。 


- 调用 SummaryOptions， 进 行 描述 性 统计 分 析 。 


可 以 看 出 ，CAS Java 客 户 端 已 经 封装 了 比较 丰富 的 函数 ， 


代码 9.7 ”运行 ACTION 进 行 描述 性 统计 分 析 


CAS ACTION 进 行 统计 分 析 。 首 先 从 描述 性 统计 分 析 开 


summary ACTION 进 行 描述 性 统计 分 析 ， 对 上 面 已 经 加 载 的 数据 orsales， 计 算 变 量 Quantity 和 Profit 的 最 大 值 、 最 小 值 和 标准 差 。 关 键 步骤 具体 如 下 。 


的 参数 ， 就 可 以 比较 容易 地 进行 描述 性 统计 分 析 了 ， 如 代码 9.7 所 示 : 


import 
import 
import 
import 
import 
import 
import 


import 
import 
import 
import 
import 
import 
import 


public 


static com.sas.cas.actions.simple.SummaryOptions .SUBSET .MAX; 
static com.sas.cas.actions.simple.SummaryOptions .SUBSET.MIN; 
static com.sas.cas.actions.simple.SummaryOptions.SUBSET.N; 
static com.sas.cas.actions.simple.SummaryOptions.SUBSET.STD; 
static com.sas.cas.actions.simple.SummaryOptions .SUBSET.NMISS; 
static com.sas.cas.actions.simple.SummaryOptions.SUBSET.STDERR; 
static com.sas.cas.actions.simple.SummaryOptions.SUBSET.MEAN; 


com.sas.cas.CASActionResults; 
com.sas.cas.CASClient; 

com. sas.cas.CASClientInterface; 

com. sas.cas.CASValue; 

com, sas.cas.actions.Casinvardesc; 
com,sas.cas.actions.Castable; 
com.sas.cas.actions.simple.SummaryOptions; 


class Summary Example_simple { 
public static void main (String[] args) throws Exception { 
/* 初 始 化 CASClient 对 象 */ 
CASClientInterface client = new CASClient ("host", 
5570, "username" 
/* 初 始 化 SummaryOptions 对 象 ， 并 且 设 定 将 要 扫 行 的 描述 性 统计 多 
SummaryOptions options = new SummaryOptions () 7 
options.setSummarySubset (new SummaryOptions. SUBSET [] { 
MIN, MAX, MEAN, N, NMISS, STD, STDERR}); 
/* 指 定 描述 性 统计 分 析 中 将 要 用 到 的 数据 */ 
Castable tableOptions = new Castable(); 
tableOptions.setCaslib ("CASUSER (cfgsas1)") ; 
tableOptions.setName ("orsales.csv") ; 


/* 指 定 将 要 对 哪些 变量 进行 描述 性 统计 分 析 */ 


assword"); 
A T*/ 


Casinvardesc[] varsOptions = new Casinvardesc[2]; 


Casinvardesc vars0Options = new Casinvardesc() ; 
vars0Options.setName ("Quantity") ; 
varsOptions[0] = vars0Options; 

Casinvardesc varslOptions = new Casinvardesc(); 
varslOptions.setName ("Profit"); 

varsOptions[1] = varslOptions; 


tableOptions.setVars ( (varsOptions) ; 
options.setTable (be et 
/* 调 用 summary action, 运行 描述 性 统计 分 析 */ 


CASActionResults<CASValue> results = client.invoke (options) ; 


/* 输 出 运行 结果 */ 
for (int i = 0; i < results.getResultsCount(); i++) { 
System.out .Println (results.getResult (i)); 


client.close (true) ; 


在 代码 运行 的 结果 中 ， 可 以 看 到 对 orsales 的 912 行 数据 中 Quantity 和 Profit 2 列 计算 之 后 的 最 大 值 、 最 小 值 和 标准 差分 别 如 下 : 


{ 
Summary=Summary "ORSALES" 的 描述 性 统计 量 
分 析 变 最 小 值 最 大 值 KA 


10 9026 912 1621. 72304437 
209.8 552970.51 912 84128.37618423 


如 果 希 望 进行 更 多 的 描述 性 统计 分 析 ， 比 如 均值 计算 、 缺 失 值 个 数 统计 、 标 准 误差 的 计算 等 ， 则 需要 修改 ummaryOptions.SUBSET 数 组 的 值 。 修 改 了 该 数组 之 后 ， 还 


com.sas.cas.actions.simple.SummaryOptions.SUBSET.*， 有 具体 代码 如 下 : 


需要 导入 相对 应 的 类 


options.setSummarySubset (new SummaryOptions.SUBSET[]{MIN, MAX, MEAN, N, NMISS, STD, STDERR}) ; 


9.2.5 “调用 ACTION 进 行 线性 回归 分 析 


CAS 服 务 器 提供 了 丰富 的 用 于 数据 分 析 的 ACTION。 在 描述 性 统计 分 析 以 后 ， 下 | 


在 下 面 线性 回归 分 析 的 例子 中 ， 使 用 已 经 加 载 的 数据 orsales， 自 变量 为 quantity， 响 应 变量 为 profit。 代 码 9.8 中 包括 如 下 几 个 关键 步骤 。 


- 初始 化 RegressionOptions 对 象 。 该 对 象 对 应 的 就 是 regression ACTION. 
- 初始 化 Casinvardesc 对 象 ， 指 定 用 于 线性 回归 的 自 变量 。 
“ 初始 化 Castable 对 象 ， 指 定 将 要 分 析 的 数据 。 


- 调用 RegressionOptions 的 setTarget 函 数 ， 设 定 响应 变量 。 


具体 代码 如 代码 9.8 所 示 : 


代码 9.8 ”线性 回归 分 析 


我 们 来 进一步 看 一 下 如 何 进行 线性 回归 分 析 。 


import com.sas.cas.CASActionResults; 

import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASValue; 

import com.sas.cas.actions.Casinvardesc; 

import com.sas.cas.actions.Castable; 

import com.sas.cas.actions.simple.RegressionOptions; 


public class SimpleRegression { 
public static void main(String[] args) throws Exception { 
try { 
CASClientInterface client = new CASClient ("host", 


5570, "username", "password") ; 


/* 初 始 化 RegressionOptions*/ 

RegressionOptions options = new RegressionOptions (); 
/* 设 置 输入 参数 */ 

Casinvardesc[] inputsOptions = new Casinvardesc[1]; 
Casinvardesc inputsOOptions = new Casinvardesc(); 
inputs0Options.setName ("Quantity"); 
inputsOptions[0] = inputs0Options; 
options.setInputs (i pore ; 

/* 设 置 回 归 使 用 的 数据 信 

Castable tableOptions = new Castable(); 
tableOptions.setCaslib ("CASUSER") ; 
tableOptions.setName ("orsales") ; 

options.setTable (tableOptions) ; 

/* 设 置 输入 参数 */ 

options.setTarget ("profit"); 

/* 执 行 regession action*/ 


CASActionResults<CASValue> results = client.invoke (options) ; 


for (int i = 0; i < results.getResultsCount(); i++) { 
System. out.println(results.getResult (i)); 


client.close (true) ; 
} catch (Exception ex) { 
ex.printStackTrace () ; 


} 


从 程序 运行 结果 中 ， 我 们 可 以 看 到 模型 输出 值 信息 如 下 。 其 中 包括 回归 系数 、 截 距 、 误 差 平方 各、 总 平方 和 、R 方 、 相 关系 数 等 信息 。 


{ 
Regression=Regression SORSAT ESNA RERIN T 
响应 变量 回归 量变 量 截 距 线性 ”二 次 


Quantity  4001.55983685 41.48882534 0 
平方 和 总 计 Ri 相关 系数  \ 


2323532736661.8096 6447678731929.59 0.63963268 0.79977039 


观测 数 Mean (Y) Mean (X) Std(Y) Std (X) 


912 64786.23735197 1465.08552632 84128.37618423 1621.72304437 


1 fF 
} 


9.2.6 ”对 CAS 服 务 器 端 事 件 的 管理 


在 CAS 服 务 器 执行 过 程 中 ，CAS 服 务 器 会 产生 事件 信息 。 通 常 来 讲 ， 这 些 事件 信息 会 在 ACTION 执 行 完毕 之 后 ， 作 为 CASActionResults 的 一 部 分 返回 


下 。 


(1) 日 志 事件 


调用 日 志 事件 ACTION 的 时 候 ， 将 信息 输出 到 日 志 中 。 


(2) 性 能 事件 


性 能 事件 是 关于 服务 器 端的 性 能 指标 的 数据 ， 包 括 ACTION 执 行 的 时 间 、CPU 信 息 、 内 存 使 用 的 信息 等 。 


din 


(3) 处 理事 件 


处 理事 件 在 ACTION 执 行 完毕 或 失败 的 时 候 发 生 。 处 理 时 间 包 括 严重 级 别 、 原 因 等 信息 。 


在 事件 处 理 中 ， 可 以 控制 是 否 把 这 
听 器 ， 然 后 在 监听 到 事件 发 生 之 后 ， 进 行 更 详细 的 操作 。 


在 代码 9.9 中 ， 有 如 下 几 个 关键 步骤 ， 具 体 如 下 。 


:初始 化 ServerStatus ACTION ， 并 且 为 这 个 ACTION 注 册 日 志 事件 监听 器 。 


: 在 监听 器 中 ， 日 志 事件 会 返回 到 CASActionResults 对 象 ， 程 序 中 会 输出 日 志 事件 信息 。 代 码 9.9 具 体 如 下 : 


代码 9.9 事件 管理 


件 作 为 CASActionResults 的 一 部 分 输出 到 客户 端 ， 以 及 监听 到 事件 之 后 ， 需 要 做 的 进一步 操作 。; 


到 客户 端 。 一 般 主 要 会 有 三 类 事件 信息 ， 具 体 如 


件 管理 ， 用 户 需要 为 将 要 执行 的 ACTION 注 册 事 件 监 


import java.util.Iterator; 

import java.util.List; 

import com.sas.cas.CASActionOptions; 

import com.sas.cas.CASActionResults; 

import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASValue; 

import com.sas.cas.actions.builtins.ServerStatusOptions; 
import com.sas.cas.events.CASLogEvent; 

import com.sas.cas.events.CASLogEventListener; 


public class Event_Sample { 
public static void main(String[] args) throws Exception { 
try { 
a CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 
/* 初 始 化 ServerStatus action*/ 
ServerStatusOptions options = new ServerStatusOptions () 7 
/* 为 options 注 册 日 志 事件 */ 
options.setLogEventListener (new CASLogEventListener() { 
@Override 
public boolean handleLogEvent ( 
CASActionOptions options, CASL Event logEvent) { 
System.out.println ("BARAH EHE") ; 
return false; 
} 
DD: 
/* 执 行 ServerStatus action*/ 
CASActionResults<CASValue> results = 


client. invoke (options); 
/* 输 出 action 产 生 的 事件 信息 */ 
List<CASLogEvent> 1 = results.getLogEvents(); 
if (l.size() == 0) { 
System.out .println ("没有 事件 输出 到 CASActionResults"); 
} else { 
Iterator<CASLogEvent> iter = 1.iterator(); 
while (iter.hasNext()) { 
CASLogEvent logEvent = iter.next(); 
System.out.printin(" " + logEvent) ; 
} 


client.close (true) ; 
} catch (Exception ex) { 
ex.printStackTrace () ; 


} 


程序 执行 的 结果 中 ， 可 以 看 到 输出 的 日 志 信息 如 下 : 


已 经 捕获 到 日 志 事件 
CASLogEvent [time=2017-01-19 23:32:25.105, type=3, message=NOTE: 网 格 节点 操作 状态 报告 : 3 个 节点 、 总 共 执 


如 果 事件 监听 函数 中 的 返回 值 修改 为 了 false， 那 么 修改 后 代码 如 下 : 


/* 为 options 注 册 日 志 事件 */ 
options.setLogEventListener (new CASLogEventListener() { 
@Override 
public boolean handleLogEvent ( 
CASActionOptions options, CASLogEvent logEvent) { 
System.out .Println(" 已 经 捕获 到 日 志 事件 ") ; 
return false; 


he 


i 


理 操作 。 


已 经 捕获 到 日 志 事件 
没有 事件 输出 到 CASActionResults 


运行 修改 后 的 代码 ， 则 程序 运行 结果 输出 中 看 到 的 信息 “没有 事件 输出 到 CASAction-Results”。 昌 然 没有 日 志 信息 输出 到 CASActionResults 对 象 ， 但 是 用 户 可 以 在 


件 监听 器 中 增加 对 和 寺 


有 件 的 处 


对 性 能 事件 、 处 理事 件 的 监听 与 日 志 事 件 的 监听 类 似 ， 都 需要 增加 事件 监听 器 。 代 码 如 下 : 


/* 为 options 注 册 性 能 事件 */ 
options.setPerformanceEventListener (new CASPerformanceEventListener () 
{ 
@Override 
public boolean handlePerformanceEvent (CASActionOptions options, 
CASPerformanceEvent performanceEvent) { 
System. out .Println(" 已 经 捕获 到 性 能 事件 ") ; 
return true; 


} 
Di; 
/* 为 options 注 册 处 理事 件 */ 
options.setDispositionEventListener (new CASDispositionEventListener () 


{ 


@Override 
public boolean handleLogEvent (CASActionOptions options, 
CASDispositionEvent dispositionEvent) { 
System.out .Println(" CEH Se Abs eth) ; 
return true; 
} 
he 


性 能 事件 的 输出 内 容 如 下 面 的 样 例 所 示 : 


CASPerformanceEvent [time=2017-01-19 23:34:20.064, elapsedTime=0.046818, cpuTime=0.0, systemTime=0.0, totalNodes=0, totalCores=0, wallTime=358, stats={system nodes=3, system cc 


处 理事 件 的 输出 内 容 如 下 面 的 样 例 所 示 : 


和 


CASDisposition [time=2017-01-19 23:34:20.157, severity=0, reason=0, statusCode= 0, statusMessage=, debugInfo=] CASDisposition [time=2017-01-19 23:34:20.157, severity=0, reason= 


除了 上 述 三 种 事件 ，CAS 服 务 器 端 还 会 对 一 些 操作 产生 相对 应 的 事件 信息 ， 这 些 事件 信息 不 会 作为 CASActionResults 的 一 部 分 返 
发 生 时 候 的 操作 。 这 种 类 型 的 事件 包括 如 下 几 个 方面 。 


回 


到 客户 端 。 但 用 户 可 以 增加 对 该 类 事件 的 监听 ， 然 后 增加 对 该 类 事件 


:Caslib 列 表 发 生变 化 。 


“ 数据 表 发 生变 化 。 


增加 了 ACTION 集 。 


“ 数据 源 发 生 更 改 。 


“ 权限 发 生变 化 。 


在 下 面 的 例子 中 ， 执 行 添加 数据 表 的 操作 ， 然 后 对 该 


有 件 进行 监听 ， 监 听 到 | 该 


件 之 后 ， 输 出 相对 应 的 信息 。 具 体 代码 如 代码 9.10 所 示 : 


代码 9.10 ”数据 添加 事件 的 监听 


import com.sas.cas.CASClient; 

import com.sas.cas.CASClientInterface; 

import com.sas.cas.CASConstants; 

import com.sas.cas.actions.table.AddTableOptions; 
import com.sas.cas.actions.table.Addtablevariable; 
import com.sas.cas.events.CASEventListener; 

import com.sas.cas.io.CSVDataTagHandler; 

import com.sas.cas.messages .CASMessageHeader; 


public class AddCSVSample Simple with _event { 
public static void main(String[] args) throws Exception { 
try { 
CASClientInterface client = new CASClient ("host", 
5570, "username", "password") ; 
client .addEventListener (CASConstants.EVENT FLAG TABLES, 
new CASEventListener() { 
@Override 
public void handleCASEvent (long flag) { 
System.out .println ("EVENT FLAG TABLES 事件 已 经 被 监听 到 ") ; 


We 
client .addEventListener (CASConstants.EVENT FLAG DATASOURCES, 
new CASEventListener() { 
@Override 
public void handleCASEvent (long flag) { 
System. out .Println ("EVENT_FLAG _DATASOURCE 事 件 已 经 被 监听 到 ") ; 


} 
DD); 
client .addEventListener (CASConstants.EVENT FLAG CASLIBS, 
new CASEventListener() { 

@Override 
public void handleCASEvent (long flag) { 

System.out.println ("EVENT FLAG CASLIBS 事件 已 经 被 监听 到 ") ; 
} 


Di 

/* 文 件 的 基本 信息 */ 

String fileName = "C:\\data\\orsales.csv"; 
boolean header = true; 


char delim = ','; 


String tableName = "orsales2"; 
boolean promote = false; 
boolean replace = false; 


/* 计 算 列 的 长 度 */ 
CSVDataTagHandler hl = new CSVDataTagHandler (fileName, 

delim, header) ; 
Addtablevariable[] vars = hl.guessCSVVars (20); 


int offset = 0; 

for (int i = 0; i < vars.length; i++) { 
Addtablevariable var = vars[i]; 
var.setOffset (offset); 
offset += var.getLength (); 


$ 
/* 初 始 化 加 载 表 的 action*/ 
AddTableOptions options = new AddTableOptions (); 
options.setTable (tableName) ; 
options.setVars (vars) ; 
options.setCaslib ("CASUSER") ; 
options .setRecLen (offset) ; 
options .setPromote (promote) ; 
options .setReplace (replace) ; 
options .setMessageTagHandler (CASMessageHeader.TAG DATA, h1); 
/* 调 用 action, 加 载 数据 */ 
client.invoke (options) ; 
/* 关 闭 连接 */ 
client.close (true); 
} catch (Exception ex) { 
ex.printStackTrace () ; 


程序 输出 的 结果 如 下 : 


EVENT_FLAG TABLES 事件 已 经 被 监听 到 


对 该 事件 监听 到 的 操作 也 可 以 在 函数 handleCASEvent 中 执行 。 


可 以 同时 增加 多 个 事件 监听 器 以 对 不 同 的 事件 进行 同时 监听 。 样 例 代码 如 下 : 


client .addEventListener (CASConstants.EVENT_FLAG TABLES, new CASEventListener() { 
@Override 
public void handleCASEvent (long flag) { 
System. out.print1n ("EVENT_FLAG TABLES 事 件 已 经 被 监听 到 ") ; 
} 
Hz 


client .addEventListener (CASConstants.EVENT_FLAG DATASOURCES, new CASEventListener() { 
@Override 
public void handleCASEvent (long flag) { 
System. out.print1n ("EVENT_FLAG_DATASOURCES 事 件 已 经 被 监听 到 ") ; 
} 
Me 


client .addEventListener (CASConstants.EVENT_FLAG CASLIBS, new CASEventListener() { 
@Override 
public void handleCASEvent (long flag) { 
System. out.println ("EVENT FLAG CASLIBS 事 件 已 经 被 监听 到 ") ; 
} 
Hz 


9.3 ”用 Lua 开 发 基于 SAS Viya 的 应 用 


9.3.1 ”系统 需求 及 开发 环境 配置 


正如 9.1.1 节 介绍 的 ，Lua 是 通过 SWAT (SAS Wrapper for Analytics Transfer) 来 调用 CAS 服 务 器 的 ACTION。SAS 对 Lua 提 供 了 SWAT 客 户 端 在 Linux 上 的 的 支持 ,该 文件 (lua-swat-1.0.0- 
linux64.tar.gz) 可 以 在 SAS 的 官方 网 站 support.sas.com 上 下 载 到 。 其 中 包含 swat.Iua、luaswat.so、lua53swat.so、tkluaswat.so 和 SAS TK。 还 包含 了 第 三 方 的 程序 包 ， 比 如 middleclass (4.0+) 、csv 
和 ee5_base64。 其 满足 了 对 CAS 服 务 器 的 连接 、 调 用 ACTION 等 功能 的 支持 。 下 载 地 址 为 : http://support.sas.com/downloads/package.htm? pid=1975 


具体 的 安装 步骤 在 上 面 链接 中 的 pdf 和 txt 文 件 中 已 有 详细 的 描述 ， 其 中 还 包括 如 何 配置 LUA_PATH、LUA_CPATH、TKPATH 等 环境 变量 。 


除了 SAS 官 方 提供 的 SWAT 客 户 端 需求 之 外 ， 其 他 的 系统 需求 包括 如 下 几 个 方 


" 64 位 Linux。 


64 位 Lua， 需 要 5.2 或 更 高 版 本 。 


9.2.1 节 中 提 到 过 ， 在 建立 客户 端 和 服务 器 端的 连接 时 ， 有 多 种 方法 可 以 保存 用 于 连接 的 用 户 和 密码 信息 。 可 以 将 用 户 和 密码 作为 参数 ， 也 可 以 将 用 户 密码 保存 在 系统 文件 中 。 在 Linux 环 境 下 ， 用 于 保 
存 用 户 密码 的 文件 是 对 于 当前 用 户 home 目 录 下 的 .authinfo 文 件 中 。 具 体内 容 如 下 : 


default user cfgsasl password {SAS002}65CC6A184655B9EC2D04B4915987EA62 


其 中 的 用 户 密码 是 通过 proc pwencode 加 密 之 后 的 内 容 。 具 体 方法 与 9.2.1 节 描述 的 相同 。 在 Linux 中 ， 需 要 对 该 文件 设置 权限 600， 使 得 只 有 该 文件 的 所 有 者 才 有 读 写 权限 。 可 以 执行 如 下 命令 完成 权 
限 的 设置 : 


rdcesx09133> cd ~ 
rdcesx09133> chmod 600 .authinfo 


在 环境 配置 完成 以 后 ， 在 Linux 操 作 系统 中 ， 可 以 运行 如 下 命令 来 查看 开发 环境 是 否 满 足 了 系统 的 需求 。 


:Lua 版 本 检查 : 启动 Lua 编 程 环境 ， 查 看 版 本 信息 。 


rdcesx09133> lua 
Lua 5.3.3 Copyright (C) 1994-2016 Lua.org, PUC-Rio 
> 


' 环境 变量 检查 : 执行 echo 命 令 来 查看 环境 变量 LUA_PATH、LUA_CPATH、TKPATH 的 值 。 


rdcesx09133> echo $LUA PATH 

/install/cfgsas1/Viya/lua-swat-1.0.0/?.lua; /install/cfgsas1/Viya/lua-swat-1.0.0/deps/?.lua 
rdcesx09133> echo $LUA_CPATH 

/install/cfgsas1/Viya/lua-swat-1.0.0/lib/?.so 

rdcesx09133> echo $TKPATH 

/install/cfgsas1/Viya/lua-swat-1.0.0/tk/ 

rdcesx09133> 


9.3 ”用 Lua 开 发 基于 SAS Viya 的 应 用 


9.3.1 ”系统 需求 及 开发 环境 配置 


正如 9.1.1 节 介绍 的 ，Lua 是 通过 SWAT (SAS Wrapper for Analytics Transfer) 来 调用 CAS 服 务 器 的 ACTION。SAS 对 Lua 提 供 了 SWAT 客 户 端 在 Linux 上 的 的 支持 ， 该 文件 (lua-swat-1.0.0- 


linux64.tar.gz) 可 以 在 SAS 的 官方 网 站 support.sas.com 上 下 载 到 。 其 中 包含 swat.Iua、luaswat.so、lua53swat.so、tkluaswat.so 和 SAS TK。 还 包含 了 第 三 方 的 程序 包 ， 比 如 middleclass (4.0+) 、csv 


和 ee5_base64。 其 满足 了 对 CAS 服 务 器 的 连接 、 调 


除了 SAS 官 方 提供 的 SWAT 客 户 端 需求 之 外 ， 其 他 的 系统 需求 包括 如 下 几 个 方 


64 位 Linux。 


.64 位 Lua， 需 要 5.2 或 更 高 版 本 。 


9.2.1 节 中 提 到 过 ， 在 建立 客户 端 和 服务 器 端的 连接 时 ， 有 多 种 方法 可 以 保存 用 于 连接 的 有 


ACTION 等 功能 的 支持 。 下 载 地 址 为 : http://support.sas.com/downloads/package.htm? pid=1975 


E 


存 用 户 密码 的 文件 是 对 于 当前 用 户 home 目 录 下 的 .authinfo 文 件 中 。 具 体内 容 如 下 : 


户 和 密码 信息 。 可 以 将 用 户 和 密码 作为 参数 ， 也 可 以 将 


具体 的 安装 步骤 在 上 面 链接 中 的 pdf 和 txt 文 件 中 已 有 详细 的 描述 ， 其 中 还 包括 如 何 配置 LUA_PATH、LUA_CPATH、TKPATH 等 环境 变量 。 


户 密码 保存 在 系统 文件 中 。 在 Linux 环 境 下 ， 用 于 保 


default user cfgsasl password {SAS002}65CC6A184655B9EC2D04B4915987EA62 


限 的 设置 : 


rdcesx09133> cd ~ 
rdcesx09133> chmod 600 .authinfo 


其 中 的 用 户 密码 是 通过 proc pwencode 加 密 之 后 的 内 容 。 


体 方法 与 9.2.1 节 描述 的 相同 。 在 Linux 中 ， 需 要 对 该 文件 设置 权限 600， 使 得 只 有 该 文件 的 所 有 者 才 有 读 写 权限 。 可 以 执行 如 下 命令 完成 权 


在 环境 配置 完成 以 后 ， 在 Linux 操 作 系统 中 ， 可 以 运行 如 下 命令 来 查看 开发 环境 是 否 满 足 了 系统 的 需求 。 


' Lua 版 本 检查 : 启动 Lua 编 程 环境 ， 查 看 版 本 信息 。 


rdcesx09133> lua 


Lua 5.3.3 Copyright (C) 1994-2016 Lua.org, PUC-Rio 


> 


“ 环境 变量 检查 : 执行 echo 命 令 来 查看 环境 变量 LUA_PATH、LUA_CPATH、TKPATH 的 值 。 


rdcesx09133> echo $LUA PATH 


/install/cfgsas1/Viya/lua-swat-1.0.0/?.lua; /install/cfgsas1/Viya/lua-swat-1.0.0/deps/?.lua 


rdcesx09133> echo $LUA_CPATH 


/install/cfgsas1/Viya/lua-swat-1.0.0/lib/?.so 


rdcesx09133> echo $TKPATH 


/install/cfgsas1/Viya/lua-swat-1.0.0/tk/ 


rdcesx09133> 


93.2 ”第 一 个 ACTION 调 用 : 调用 ServerStatus 查 看 服务 器 状态 


在 下 面 的 程序 示例 中 ， 首 先 要 和 服务 器 建立 连接 ， 建 立 连接 中 使 用 的 参数 信息 ， 诸 如 端口 、 


在 运行 下 面 的 代码 之 前 ， 首 先 执行 lua 命 令 来 启动 Lua 编 程 环境 。 


在 样 例 程序 中 ，swat 是 和 CAS 服 务 器 连接 需要 的 包 的 名 称 ，s 是 客户 端 和 服务 器 端 会 话 。 在 调 


ACTION 集 和 ACTION 的 内 容 ，SAS Viya 对 所 有 的 ACTION 都 提供 了 Lua 接 口 。 


现在 来 看 一 下 获取 服务 器 端 状态 信息 的 代码 示例 : 


> swat = require 'swat' 


> swat.setOption('display.width', 120) 


、 密 码 等 ， 与 在 9.2.2 节 中 介绍 的 内 容 相同 。 建 立 连 接 以 后 ， 即 可 调 有 


ACTION 语 句 中 ，builtins 是 ACTION 集 的 名 字 ，serverStatus 是 ACT 


ACTION ServerStatus, 


ON 的 名 字 。 可 以 参考 9.1.3 节 来 获取 


> s = swat.CAS("host", 5570, "username", "password") 


> results = s:builtins_serverStatus{} 


> print (results) 


注意 在 执行 程序 之 前 ， 需 要 替换 其 中 的 CAS 服 务 器 、 用 户 、 密 码 等 信息 。 


该 代码 运行 之 后 ， 可 以 得 到 如 下 系统 信息 : 


[nodestatus] 

节点 名 称 角色 
ssscrdlax07 worker 
ssscrdlax08 worker 
ssscrdlax06 controller 
[About] 


table: 0xc35510 


[server] 

服务 器 状态 
节点 计数 ”操作 总 数 
3 


=. 


运行 时 间 〈 秒 ) 


正在 运行 已 延迟 
0 


关闭 Lua 客 户 端 ， 上 述 代码 建立 的 会 话 会 在 会 话 超时 之 后 自动 终止 。 


CAS Lua 的 SWAT 客 户 端 (lua-swat-1.0.0-linux64.tar.gz) 负责 了 所 有 与 服务 器 端的 通信 及 结果 展示 的 工作 。 所 以 通过 上 


端的 ACTION， 从 而 获取 所 需要 的 信息 。 


的 例子 我 们 可 以 发 现 ， 使 F 


对 于 其 他 ACTION， 使 用 Lua 调 用 该 ACTION 的 参数 列表 可 以 在 下 面 的 Viya 帮 助 文 档 中 查 到 : https://developer.sas.com/apis/cas/actions.html。 


9.3.3 ”用 Lua 将 数据 加 载 到 CAS 服 务 器 


简单 的 Lua 代 码 就 能 够 很 方便 地 调用 CAS 服 务 器 


下 面 调用 CAs Lua SWAT 客 户 端 中 提供 的 upload 函 数 将 客户 端的 数据 加 载 到 CAS 服 务 器 的 内 存 中 。 使 用 的 数据 orsales.csv 可 以 从 support.sas.com 上 下 载 。 链 接地 址 


为 : http://support.sas.com/documentation/onlinedoc/viya/examples.htm 


swat = require 'swat' 

swat.setOption('display.width', 120) 

s = swat.CAS("host", 5570, "username", "password") 

result = s:upload{"/path/to/local/file/orsales.csv", casout={name="orsales", promote=false, replace=true, caslib="CASUSER"}} 


Vvvv 


上 面 语句 的 调用 不 是 对 ACTION 的 调用 ， 而 是 SWAT Lua 客 户 端 提供 的 方法 ， 在 该 方法 中 第 一 个 参数 是 准备 上 传 的 文件 位 置 ， 第 二 个 参数 casout 是 对 输出 结果 的 描述 。 主 要 参数 具体 如 下 。 


“caslib: 指定 使 用 的 CAS 逻 辑 库 的 名 字 。 

“ name: 指定 加 载 的 表 使 用 的 名 字 。 

‘promote: 指定 是 否 将 表 加 载 为 全 局 表 。 如 果 该 参数 为 tue， 则 加 载 的 表 在 所 有 的 会 话 中 都 可 见 。 该 参数 的 默认 值 为 false。 
“ replace: 指定 是 否 用 相同 的 名 字 替 换 已 经 加 载 的 表 。 该 参数 的 默认 值 为 锯 se。 


上 述 程序 执行 完毕 之 后 ， 可 以 运行 Lua 程 序 来 查看 已 经 加 载 的 表 的 信息 : 


swat = require 'swat' 

swat.setOption ( ‘display.width' , 120) 

s = swat.CAS("host", 5570, "username", "password") 

result = s: upload{"/path/to/local/file/orsales. csv", casout={name="orsales", promote=false, replace=true, caslib="CASUSER"}} 
s:table_tableInfo{caslib="CASUSER", name="orsales"} 


Vvvvyv 


程序 运行 的 部 分 结果 如 下 : 


[TableInfo] 
CAS 逻辑 库 CASUSER(cfgsas1) 的 表 信 息 
Name Rows Columns Encoding 创建 时 间 
ORSALES 912 8 utf-8 2017 年 05 月 05 日 19 时 00 分 39 秒 
上 次 修改 时 间 字符 集 


2017 年 05 月 05 日 19 时 00 分 39 秒 UTES 


为 了 查看 已 经 加 载 的 表 中 的 详细 数据 ， 可 以 执行 Table ACTION 集 中 的 fetch ACTION。 代 码 如 下 : 


> swat = require 'swat' 

> swat.setOption('display.width', 120) 

> s = swat.CAS("host", 5570, "username", "password") 

> result = s:upload{"/path/to/local/file/orsales.csv", casout={name="orsales", promote=false, replace=true, caslib="CASUSER"} } 

> 

s:table_fetch{table={caslib="CASUSER", name="orsales", orderBy={ {name="Year"}},vars={{name="Year"}, {name="Quarter"}, {name="Product_Line"}, {name="Total_ Retail Price"}}},to=5.0} 


述 程序 获取 了 已 经 加 载 的 orsales 表 中 的 前 5 行 数据 。 为 了 指定 需要 获取 的 行 数 ， 需 要 通过 设 定 参 数 to= 5， 默 认 是 返回 20 行 数据 。 上 述 程序 中 读 取 了 4 列 数据 ， 它 们 分 别 是 : Year, Quarter, 
Product Line、Total_Retail_Price。 可 以 通过 设 定 参数 vars 来 指定 需要 获取 的 列 的 信息 。 程 序 运行 的 结果 如 下 : 


[Fetch] 2 
从 表 "ORSALES" 中 选 定 行 
_Index Year Quarter Product_Line Total_Retail Price 


I 1999 199991 Children 8990.9 
2 1999 199991 Children 2560.4 
3 1999 199901 Children 18768.8 
4 1999 199901 Children 14337.2 
5 1999 199901 Children 12996.2 


9.3.4 ”调用 ACTION 进 行 描述 性 统计 分 析 


加 载 完 数据 之 后 ， 下 面 就 来 看 看 Lua 如 何 调用 CAS 服 务 并 进行 数据 分 析 的 。 


首先 来 看 看 简单 的 描述 性 统计 分 析 。 在 下 面 的 例子 中 ， 我 们 对 Quantity、Profit 和 Total_Retail_Price 进 行 最 大 值 、 最 小 值 、 均 值 和 标准 差 的 计算 。 调 用 的 函数 形式 为 simple summary。 其 中 ，simple 
为 ACTION 集 的 名 字 ，summary 为 ACTION 的 名 字 。 对 其 他 ACTION 的 调用 ， 也 需要 遵循 同样 的 命名 规则 。 函 数 中 的 参数 和 summary ACTION 中 的 参数 相同 。 具 体内 容 可 以 参考 9.1.3 节 中 ACTION 的 文档 。 
下 面 的 函数 中 用 到 的 参数 及 说 明 具 体 如 下 。 


' subSet: 指定 将 要 进行 的 描述 性 统计 运算 类 型 ， 比 如 最 大 值 、 最 小 化 、 标 准 差 等 。 更 多 运算 类 型 ， 请 参考 summary ACTION 中 参数 subSet 的 描述 。 


“ table: 指定 需要 进行 描述 性 统计 运算 的 数据 的 位 置 。 其 中 有 caslib 的 名 字 和 表 的 名 字 。 


swat = require 'swat' 

swat.setOption('display.width', 120) 

s = swat.CAS("host", 5570, "username", "password") 

result = s:upload{"/path/to/local/file/orsales.csv", casout={name="orsales", promote=false, replace=true, caslib="CASUSER"}} 


uvvvvy 


:simple_summary{subSet={"MAX", "MEAN", "MIN", "STD"}, table={caslib="CASUSER", name="orsales", vars={ {name="Quantity"}, {name="Profit"}, {name="Total_ Retail Price"}}}} 


计算 的 结果 如 下 : 
[Summary] 

"ORSALES" 的 描述 性 统计 量 
分 析 变 量 最 小 值 最 大 值 均值 标准 差 
Quantity 10.0000 9026.00 1465.09 1621.72 
Profit 209.80 552971 64786 84128 
Total Retail Price 422.30 1159837 122091 166576 


9.3.5 ”调用 ACTION 进 行 线性 回归 分 析 


现在 来 看 一 下 如 何 运行 Lua 调 用 CAS 服 务 进 行 简单 的 线性 回归 分 析 。 在 这 个 例子 中 ， 我 们 需要 调用 simple ACTION 集 中 的 regression ACTION 来 完成 线性 回归 分 析 。 函 数 的 形式 同样 是 由 ACTION 集 和 
ACTION 组 成 的 。 该 例 仍然 以 quantity 来 作为 自 变量 ，profit 作 为 因 变 量 来 进行 线性 回归 分 析 。 在 下 面 的 程序 中 ， 参 数 及 其 说 明 具 体 如 下 。 


inputs: 指定 因 变 量 的 名 字 。 
table: 指定 需要 进行 描述 性 统计 运算 的 数据 的 位 置 。 其 中 包含 caslib 的 名 字 和 表 的 名 字 。 


‘target: 指定 进行 线性 回归 的 因 变 量 的 名 字 。 


swat = require 'swat' 

swat.setOption('display.width', 120) 

s = swat.CAS("host", 5570, "username", "password") 

result = s:upload{"/path/to/local/file/orsales.csv", casout={name="orsales", promote=false, replace=true, caslib="CASUSER"}} 


unvvvvy 


:simple_regression{inputs={ {name="Quantity"}}, table={caslib="CASUSER", name="orsales"}, target="profit"} 
运行 上 述 程序 ， 结 果 如 下 : 


[Regression] 
"ORSALES" 的 线性 回归 分 析 

响应 变量 ”回归 量变 量 AUE 线性 二 次 ”三 次 ”误差 平方 和 ”平方 和 总 计 R 方 \ 
Profit Quantity 4001.56 41.4888 0 0 2.324E12 6.448E12 0.6396 


相关 系数 ”观测 数 Mean (Y) Mean(X) Std(Y) Std(X) 
0.7998 912 64786 1465.09 84128 1621.72 


从 上 面 的 几 个 例子 可 以 看 出 ，Lua 可 以 通过 SWAT， 直 接 调用 CAS ACTION 进 行 数据 的 运算 和 分 析 。 由 于 SWAT 提 供 了 底层 CAS 服 务 器 的 连接 、ACTION 调 用 的 封装 等 复杂 的 操作 ， 从 而 使 得 用 户 调 
ACTION 过 程 变 得 十 分 简洁 方便 。 


9.4 用 Python 开发 基于 SAS Viya 的 应 用 


941 系统 需求 及 开发 环境 配置 


和 Lua 访 问 CAS 服 务 器 的 工作 原理 相同 ，Python 也 是 通过 SWAT 技 术 来 实现 对 CAS ACTION 的 调用 。SWAT Python 客 户 端 对 开发 环境 的 要 求 具体 如 下 。 
" 64 位 Linux。 
有 些 版 本 Linux 不 包含 ibnuma.so.1， 需 要 单独 安装 。 在 numactl 包 中 包含 该 共享 库 。 


“64 位 Python、 版 本 号 为 2.7.x 或 3.4.x。 


SAS 提 供 了 Python 访 问 CAS 服 务 器 的 客户 端 文 件 (python-swat-1.0.0-doc.tar.gz) ， 下 载 地 址 为 : http://support.sas.com/downloads/package.htm?pid=1977。 该 文件 需要 使 用 通用 的 Python 开 
发 工具 pip 工 具 进行 安装 ， 运 行 如 下 命令 进行 安装 : 


pip install python-swat-1.0.0-linux64.tar.gz 


在 Python 客户 端 和 CAs 服 务 器 的 连接 过 程 中 ， 同 样 需要 用 户 和 密码 等 信息 。 可 以 将 用 户 和 密码 作为 建立 连接 的 参数 ， 也 可 以 将 其 保存 在 .authinfo 文 件 中。 具体 保 存 方 法 与 9.3.1 节 中 描述 的 相同 。 


在 环境 配置 完成 以 后 ， 在 Linux 操 作 系统 中 ， 可 以 运行 如 下 命令 来 查看 开发 环境 是 否 满 足 了 系统 的 需求 。 


` Python 版 本 检查 : 启动 Python 编程 环境 ， 查 看 版 本 信息 。 


rdcesx50012> python 

Python 2.7.2 (default, Feb 22 2012, 15:31:46) 

[GCC 4.4.5 20110214 (Red Hat 4.4.5-6)] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> 


- SWAT Python 客户 端 包 是 否 已 经 导入 检查 : 


在 Python 编程 环境 中 ， 执 行 如 下 命令 。 如 果 正 确 导 入 SWAT 包 ， 则 命令 可 以 成 功 执行 。 


>>> import swat 


否则 ， 就 会 得 到 下 面 的 错误 信息 : 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named swat 


94 用 Python 开发 基于 SAS Viya 的 应 用 


9.4.1 系统 需求 及 开发 环境 配置 


和 Lua 访 问 CAS 服 务 器 的 工作 原理 相同 ，Python 也 是 通过 SWAT 技 术 来 实现 对 CAS ACTION 的 调用 。SWAT Python 客户 端 对 开发 环境 的 要 求 具体 如 下 。 


"64 位 Linux。 


有 些 版 本 Linux 不 包含 ibnuma.so.1， 需 要 单独 安装 。 在 numactl 包 中 包含 该 共享 库 。 


发 工具 pip 工 ， 


64 位 Python、 版 本 号 为 2.7.x 或 3.4.xo 


SAS 提 供 了 Python 访问 CAS 服 务 器 的 客户 端 文件 (python-swat-1.0.0-doc.tar.gz) ， 下 载 地址 为 : http://support.sas.com/downloads/package.htm?pid=1977。 该 文件 需要 使 用 通 
进行 安装 ， 运 行 如 下 命令 进行 安装 : 


的 Python 开 


pip install python-swat-1.0.0-linux64.tar.gz 


在 Python 客户 端 和 CAs 服 务 器 的 连接 过 程 中 ， 同 样 需要 用 户 和 密码 等 信息 。 可 以 将 用 户 和 密码 作为 建立 连接 的 参数 ， 也 可 以 将 其 保存 在 .authinfo 文 件 中 。 § 


在 环境 配置 完成 以 后 ， 在 Linux 操 作 系统 中 ， 可 以 运行 如 下 命令 来 查看 开发 环境 是 否 满 足 了 系统 的 需求 。 


+ Python 版 本 检查 : 启动 Python 编程 环境 ， 查 看 版 本 信息 。 


体 保 存 方法 与 9.3.1 节 中 描述 的 相同 。 


rdcesx50012> python 
Python 2.7.2 
[GCC 4.4.5 20110214 
Type "help", "copyright", 
>>> 


(default, Feb 22 2012, 
(Red Hat 4.4.5-6)] on linux2 
"credits" or "license" for more information. 


15:31:46) 


- SWAT Python 客户 端 包 是 否 已 经 导入 检查 : 


在 Python 编程 环境 中 ， 执 行 如 下 命令 。 如 果 正 确 导 入 SWAT 包 ， 则 命令 可 以 成 功 执行 。 


>>> import swat 


否则 ， 就 会 得 到 下 面 的 错误 信息 : 


Traceback (most recent call last): 


File "<stdin>", line 1, 


in <module> 


ImportError: No module named swat 


94.2 ”第 一 个 ACTION 调 用 : 调用 ServerStatus 查 看 服务 器 状态 


准备 好 系统 环境 之 后 ， 现 在 就 可 以 执行 ACTION Serverstatus 查 看 CAS 服 务 器 的 信息 了 。 


首先 执行 python 命 令 ， 进 入 Python 编程 环境 ， 然 后 输入 如 下 程序 。 在 下 面 的 程序 中 进行 如 下 的 操作 。 


“ 首先， 执行 import 命 令 ， 导 入 swat 包 。 


“ 然后 ， 执 行 swat.CAS 方 法 建立 连接 。 建 立 连接 中 使 用 的 参数 信息 ， 比 如 端口 、 用 户 、 密 码 等 ， 这 点 与 9.2.2 节 中 介绍 的 内 容 相同 。 


' 最 后 ， 调 用 ACTION ServerStatus 获 取 服 务 器 节点 信息 。 和 Lua 调 用 CAS ACTION 的 命名 方式 类 似 ，Python 调 用 ACTION 的 时 候 ， 使 用 了 ACTION 集 builtins 和 ACTION ServerStatus 的 组 合 命名 方式 。 不 同 


的 ACTION 参 数列 表 可 以 参考 9.1.3 节 中 ACTION 的 文档 描述 。 


>>> import swat 
>>> conn = swat.CAS("host", 


5570, 


"username', 'password') 


>>> out = conn.builtins.serverstatus () 


>>> print (out) 


该 程序 执行 后 的 结果 如 下 : 


[About] 


[server] 
服务 器 状态 
nodes 
0 3 
[nodestatus] 


actions 


name role 
0 ssscrdlax07 worker 
1 ssscrdlax08 worker 


2 ssscrdlax06 controller 


uptime running stalled 
19.871 0 0 
19.875 0 0 
19.883 0 0 


+ Elapsed: 0.00751s, user: 0.003s, sys: 0.008s, mem: 0.139mb 


连接 使 


完毕 之 后 ， 执 行 如 下 代码 关闭 连接 以 释放 资源 。 


>>> conn.close () 


对 于 其 他 ACTION ， 使 用 Python 调 


该 ACTION 的 参数 列表 可 以 在 下 面 的 Viya 帮 助 文档 中 查 到 : https://developer.sas.com/apis/cas/actions.html。 


9.4.3 用 Python 将 数据 加 载 到 CAs 服 务 器 


的 


在 与 服务 器 之 间 建 立 了 连接 之 后 ， 下 面 就 来 看 一 下 如 何 将 数据 加 载 到 CAs 服 务 器 中 。 使 


的 数据 orsales.csv 可 以 从 support.sas.com 下 载 。 链 接 为 : 


http://support.sas.com/documentation/onlinedoc/viya/examples.htm 


在 需要 加 载 的 文件 比较 小 的 情况 下 ， 可 以 直接 加 载 客户 端的 文件 。 下 面 的 代码 将 调 


upload file 函 数 来 加 载 文 件 。 该 函数 是 由 SWAT Python 客户 端 提供 的 ， 是 基于 pandas 技 术 实现 的 数据 加 载 ， 可 以 


来 加 载 CSV、SAsS 数 据 集 等 文件 。 在 函数 中 ， 文 件 的 路 径 为 客户 端的 路 径 ， 也 就 是 Python 开发 环境 客户 端 路 径 。 在 参数 列表 中 ，casout 参 数 指定 了 需要 将 数据 加 载 到 的 CAS 逻 辑 库 的 名 字 、 加 载 后 数据 表 


名 字 ， 以 及 是 否 将 该 表 加 载 为 全 


FAR 


具体 的 casout 的 参数 列表 ， 请 参考 9.4.1 节 描述 的 SWAT Python 客户 端 文档 。 


>>> import swat 

>>> conn = swat.CAS("host", 5570, 'username', 'password') 

>>> tbl = conn.upload_file('/path/to/local/file/orsales.csv', casout={'name':'orsales', 'caslib':'CASUSER', 'promote':False, 'replace':True}) 
>>> tbl.head() 

>>> conn.close() 


下 面 的 输出 结果 显示 了 已 经 加 载 的 前 5 行 数 据 : 


从 表 "ORSALES" 中 选 定 行 
Year Quarter Product Line Product Category \ 


0 1999 199991 Children Children Sports 
1 1999 199991 Children Children Sports 
2 1999 199991 Children Children Sports 
3 1999 199991 Children Children Sports 
4 1999 199991 Children Children Sports 
Product_Group Quantity Profit Total Retail Price 
A-Team, Kids 286 4980.15 8990.9 
Bathing Suits, Kids 98 1479.95 2560.4 
Eclipse, Kid's Clothes 588 9348.95 18768.8 
Eclipse, Kid's Shoes 334 7136.80 14337.2 
Lucky Guy, Kids 303 7163.00 12996.2 


对 于 比较 大 的 数据 文件 ， 可 以 把 文件 放 在 服务 器 端 ， 直 接 把 服务 器 端的 文件 加 载 到 CAS 服 务 器 中 ， 从 而 节省 文件 的 网 络 传输 时 间 ， 示 例 代码 如 下 : 


>>> import swat 

>>> conn = swat.CAS("host", 5570, 'username', 'password') 

>>> tbl = conn.load_path('orsales.csv', caslib='casuser', casout={'caslib':'CASUSER', 'name':'Orsales', 'replace':True}) 
>>> conn.close () B 


在 上 面 的 参数 中 ， 文 件 的 路 径 是 相对 于 目的 caslib 路 径 的 相对 路 径 。 为 了 查看 目的 caslib 的 路 径 ， 在 SAs studio 中 执行 CAsL 显 示 在 当前 会 话 中 的 caslib 的 信息 : 


cas mysess cashost="host" casport=5570; 
caslib sessref=mysess list; 


在 上 述 CASL 执 行 的 结果 中 ， 可 以 看 到 当前 CAS 会 话 中 caslib 的 信息 。 其 中 目的 caslib CASUSER 的 Path =/instalyusers/cfgsas1/casuser/， 详 细 信息 如 下 : 


NOTE: Session = MYSESS Name = CASUSER(cfgsas1) 
Type = PATH 
Description = Personal File System Caslib 
Path = /install/users/cfgsas1/casuser/ 
Definition = 
Subdirs = Yes 
Local = No 
Active = No 
Personal = Yes 


为 了 加 载 服务 器 端的 数据 ， 需 要 将 文件 存放 在 /install/users/cfgsas1/casuser/ 的 相对 路 径 中 。 但 是 ， 如 果 将 数据 文件 存放 在 其 他 路 径 下 ， 例 如 /install/cfgsas1/viyaData 下 ， 则 需要 指定 相对 路 径 信 
函数 load_path 的 用 法 如 下 : 


a 


>>> import swat 

>>> conn = swat.CAS("host", 5570, 'username', 'password') 

>>> tbl = conn. load_path('http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/../http: //www.hzcourse.com/resource/readBook?¢ 
>>> tbl.head() 

>>> conn.close () 


当然 ， 根 据 指定 的 caslib 的 不 同 ， 需 要 修改 相对 路 径 的 信息 。 
数据 加 载 完成 以 后 ， 我 们 可 以 看 到 程序 运行 的 结果 中 显示 已 经 加 载 的 数据 为 : 


从 表 "ORSALES" 中 选 定 行 
Year Quarter Product Line Product Category \ 


0 1999 199991 Children Children Sports 
1 1999 199991 Children Children Sports 
2 1999 199991 Children Children Sports 
3 1999 199991 Children Children Sports 
4 1999 199991 Children Children Sports 
Product_Group Quantity Profit Total_Retail Price 
A-Team, Kids 286 4980.15 8990.9 
Bathing Suits, Kids 98 1479.95 2560.4 
Eclipse, Kid's Clothes 588 9348.95 18768.8 
Eclipse, Kid's Shoes 334 7136.80 14337.2 
Lucky Guy, Kids 303 7163.00 12996.2 


9.4.4 调用 ACTION 进 行 描述 性 统计 分 析 


数据 加 载 完成 以 后 ， 下 面 就 来 举例 说 明 对 已 经 加 载 的 数据 进行 描述 性 统计 分 析 。 


在 Python 中 ， 使 用 已 经 加 载 的 数据 进行 描述 性 统计 分 析 有 如 下 两 种 方法 。 


: 第 一 种 ， 通 过 已 经 建立 的 连接 来 调用 ACTION， 将 已 经 加 载 的 数据 作为 一 个 参数 使 用 。 


“ 第 二 种 ， 直 接 使 用 已 经 加 载 的 数据 作为 Python 变量 来 调用 ACTION。 


这 两 种 方法 只 是 在 语法 上 稍 有 区 别 。 下 面 就 来 看 看 这 两 种 方法 的 样 例 代码 。 首 先是 第 一 种 方法 : 


>>> import swat 

>>> conn = swat.CAS("host", 5570, 'username', 'password') 

>>> tbl = conn.upload_file( '/path/to/local/file/orsales.csv', casout={'name':'orsales', 'caslib':'CASUSER', 'promote':False, 'replace':True}) 
>>> out=conn.simple. summary (table=tbl) 

>>> print (out) 

>>> conn.close() 


在 上 面 的 代码 中 ， 已 经 加 载 的 数据 为 tbl|， 作 为 参数 table=tb| 传 递 给 ACTION。 在 调用 ACTION 的 时 候 ， 首 先是 ACTION 集 的 名 字 ， 然 后 是 ACTION 的 名 字 。 不 同 ACTION 的 具体 参数 ， 可 以 参考 9.1.3 节 
中 的 ACTION 的 文档 。 程 序 的 部 分 输出 如 下 : 


"ORSALES" 的 描述 性 统计 量 


Column Min Max N NMiss \ 

0 Year 1999.0 2002.00 912.0 0.0 
1 Quantity 10.0 9026.00 912.0 0.0 
2 Profit 209.8 552970.51 912.0 0.0 
3 Total Retail Price 422.3 1159837.26 912.0 0.0 
Mean Sum Std StdErr 
2000.500000 1.824456e+06 1.118647 0.037042 
1465.085526 1.336158e+06 1621.723044 53.700616 


64786.237352  5.908505e+07 84128.376184 2785.768910 
122090.684063 1.113467e+08 166576.075109 5515.885035 


下 面 是 第 二 种 方法 : 

>>> import swat 

>>> conn = swat.CAS("host", 5570, 'username', 'password') 

>>> tbl = conn.upload_file('/path/to/local/file/orsales.csv', casout={'name':'orsales', 'caslib':'CASUSER', 'promote':False, 'replace':True}) 


>>> out=tbl.simple.summary () 
>>> print (out) 
>>> conn.close () 


在 第 二 种 方法 中 ， 直 接 使 用 已 经 加 载 的 表 tbl 作 为 Python 变量 调用 ACTION ， 而 没有 使 有 


参数 table=tbl。 程 序 运 4 


TI 


了 的 结果 和 第 一 种 方法 相同 。 


在 上 面 的 程序 输出 中 ， 可 以 看 到 有 最 大 值 、 最 小 值 、 均 值 、 标 准 差 等 。 在 simple.summary ACTION 中 ， 可 以 通过 subset 参 数 来 控制 需要 进行 哪些 描述 性 统计 分 析 。 如 果 只 进行 最 大 值 、 最 小 值 和 标准 


差 的 计算 ， 那 么 具体 的 语法 如 下 : 


>>> import swat 
>>> conn = swat.CAS("host", 5570, 'username', 'password') 


>>> tbl = conn.upload_file( '/path/to/local/file/orsales.csv', casout={'name':'orsales', 'caslib':'casuser', 'promote':False, 'replace':True}) 


>>> out = tbl.simple.summary(subset={"MAX", "MEAN", "STD"}) 
>>> print (out) 
>>> conn.close () 


程序 的 输出 结果 如 下 : 
"ORSALES" 的 描述 性 统计 量 

Column Max Mean Std 
0 Year 2002.00 2000.500000 1.118647 
1 Quantity 9026.00 1465.085526 1621.723044 
2 Profit 552970.51 64786 .237352 84128.376184 
3 Total Retail Price 1159837.26 122090.684063 166576.075109 


ACTION simple.summary 的 具体 参数 用 法 ， 可 以 参考 9.1.3 节 中 的 ACTION 文 档 。 


94.5 ”调用 ACTION 进 行 线性 回归 分 析 


下 面 使 用 已 经 加 载 的 数据 进行 线性 回归 分 析 。 


和 描述 性 统计 分 析 相同 ， 也 有 两 种 方法 进行 线性 回归 的 分 析 。 可 以 通过 已 经 建立 的 连接 来 调 


现 线性 回归 分 析 。 


ACTION， 也 可 以 使 用 已 经 加 载 的 数 


居 作 为 Python 变量 直接 调用 ACTION。 下 面 分 别 用 两 种 代码 来 举例 实 


首先 来 看 一 下 如 何 通过 已 经 建立 的 连接 来 调用 ACTION。 对 simple.summary ACTION 的 调用 ，Python 语 言 的 语法 与 9.3.5 节 中 讨论 的 Lua 语 言 非常 类 似 ， 只 是 参数 的 写法 上 稍 有 区 别 ， 代 码 如 下 : 


>>> import swat 


>>> conn = swat.CAS("host", 5570, 'username', 'password') 
>>> tbl = conn.upload_file('/path/to/local/file/orsales.csv', casout={'name':'orsales', 'caslib':'CASUSER', 'promote':False, 'replace':True}) 
>>> 


conn.simple. regression (inputs=[{'name':'Quantity'}],table={'caslib':'CASUSER', 'name': 'ORSALES'}, target='Profit') 


>>> conn.close() 


程序 的 输出 结果 如 下 : 
CASResults ([ (u'Regression'，"ORSALES" 的 线性 回归 分 析 
Response Regressor Intercept Linear Quadratic Cubic \ 
0 Profit Quantity 4001.559837 41.488825 0.0 0.0 
SSE SST RSquare Corr NUsed YMean \ 


2.323533e+12 6.447679e+12 0.639633 0.79977 912.0 64786.237352 


XMean YStd xStd 
1465.085526  84128.376184 1621.723044)]) 


下 面 使 用 已 经 加 载 的 数据 作为 Python 变量 直接 调用 simple.regress ACTION 进 行 线性 回归 分 析 : 

>>> import swat 

>>> conn = swat.CAS("host", 5570, 'username', 'password') 

>>> tbl = conn.upload_file('/path/to/local/file/orsales.csv', casout={'name':'orsales', 'caslib':'CASUSER', 'promote':False, 'replace':True}) 
>>> 


tbl.simple. regression (inputs=[{'name':'Quantity'}],table={'caslib':'CASUSER'},target='Profit') 


>>> conn.close () 


在 上 面 的 代码 中 ， 直 接 使 用 tbl 作 为 Python 变量 来 调用 ACTION ， 参 数 中 没有 使 有 


9.5 用 CAs REST API 开 发 基于 SAs Viya 的 应 用 


前 面 在 讨论 使 用 Java、Lua、Python 访 问 CAS 服 务 器 的 时 候 ， 都 需要 客户 


端 文件 的 支持 : 在 使 


户 端 来 访问 CAS 服 务 器 之 外 ，SAS 还 提供 了 对 REST API 的 支持 。 也 就 是 说 ， 客 户 可 以 直接 访问 CAS) 


根据 endpoint 的 不 同 ，CAS 服 务 器 端 提 供 了 如 下 几 种 REST Services。 


Java 的 时 候 ， 需 


要 jar 文 件 的 支持 ; 在 使 


'name':'ORSALES'。 程 序 运 行 的 结果 和 第 一 种 方法 运行 的 结果 相同 。 


Lua 和 Python 的 时 候 ， 需 要 SWAT 客 户 端的 支持 。 除 了 利用 客 


肛 务 器 提供 的 REST Services， 而 不 需要 准备 客户 端 文件 。 


+ /cas: 关于 CAS 进 程 和 会 话 的 REST Services. 


其 中 很 重要 的 一 部 分 REST Services 就 是 对 ACTION 的 调用 。 常 


的 endpoint 格 式 为 : 


http(s)://host: 8777/cas/sessions/session-uuid/actions/action set.action 


在 上 述 endpoint 中 ， 根 据 不 同 的 环境 、 不 同 的 会 话 和 需要 调用 


的 不 同 的 ACTION ， 用 户 需 要 蔡 换 上 述 下 划 线 部 分 的 内 容 。 例 如 ， 进 行 描述 性 统计 分 析 的 endpoint 为 : 


http(s)://host: 8777/cas/sessions/session-uuid/actions/simple.summary。 具 体内 容 会 在 9.5.2 节 中 讨论 。 


- /system: 是 关于 操作 系统 和 CPU 信息 的 REST Services。 


“ /grid: 是 关于 CAS 服 务 器 节点 的 信息 。 


对 于 各 种 开发 语言 ， 只 要 可 以 调用 REST Services， 就 可 以 访问 CAS 服 务 器 提供 的 数据 分 析 功能 ， 而 没有 其 他 的 系统 需求 。 


对 于 不 同 ACTION 的 REST APl 中 的 具体 参数 可 以 参考 9.1.3 节 中 ACTION 的 文档 介绍 。 


本 章 将 以 java 语言 为 例 ， 使 用 我 们 已 经 加 载 的 数据 ， 查 看 如 何 调 


9.5.1 ”使 用 Java 来 调用 通用 类 REST Services 


回 


服务 器 端的 REST Services， 包 括 通用 类 、 描 述 性 统计 分 析 和 线性 


CAS 服 务 器 端 提供 的 通用 类 REST Services 的 endpoint 格 式 和 调 上 


endpoint 中 的 controller 机 器 的 地 址 、 用 户 和 密码 信息 。 


代码 9.11 ”对 通用 类 REST Services 的 调用 


ACTION 的 endpoint 不 同 。 不 需要 当前 会 话 的 UUID。 代 码 9.11 中 给 出 了 如 何 调用 类 REST Services, fii 


归 分 析 的 REST Services， 并 查看 返回 的 结果 。 


届 不 同 的 环境 ， 需 要 蔡 换 


import java.io.BufferedReader; 

import java.io. IOException; 

import java.io. InputStreamReader; 

import java.io.UnsupportedEncodingException; 
import java.net.HttpURLConnection; 

import java.net .MalformedURLException; 
import java.net.URL; 

import javax.xml.bind.DatatypeConverter; 


public class ServerStatus_Rest_Services { 
public static void main(String[] args) { 
try 


String endpoint = "http: 
String user = "username"; 
String Password = "password"; 


URL url = new URL (endpoint); 
HttpURLConnection connection = 

(HttpURLConnection) url.openConnection () 7 
connection.setDoInput (true) ; 
connection.setDoOutput (true) ; 
connection.setRequestMethod ("GET") ; 
connection. setUseCaches (false); 
connection.setInstanceFollowRedirects (true) ; 
connection.setRequestProperty ( 

"Content-Type", "application/json") ; 

String author = "Basic " + 


{ 
/* 根 据 不 同 的 环境 ,需要 替换 host、username 和 Passwordx/ 
/host:8777/cas/nodes"; 


ServerStatus_Rest_Services.getEncodedAuthorization ( 


user, Password) ;;_ 


connection.setRequestProperty ("Authorization", author); 


connection.connect () ; 


System. out .print1n (connection.getResponseCode () ) 7 


BufferedReader reader = new BufferedReader ( 


new InputStreamReader (connection.getInputStream())); 


String lines; 
StringBuffer sbf = new StringBuffer (); 
while ((lines = reader.readLine()) != null) 


lines = new String(lines.getBytes(), "utf-8"); 


sbf.append (lines) ; 
} 
System. out .Println (sbf) ; 
reader.close(); 
connection.disconnect () 7 


} catch (MalformedURLException e) { 
e.printStackTrace () 7 

} catch (IOException e) { 
e.printStackTrace () 7 

}catch (Exception e) { 
e.printStackTrace () 7 

} 
} 


/* getEncodedAuthorization 函 数 根据 用 户 和 密码 生成 认证 信息 */ 


private static String getEncodedAuthorization ( 


String userName, String password) 


{ 
String s = null; 


if (userName != null && password != null) { 
StringBuffer sb = new StringBuffer (); 


sb.append (userName) .append(":") ; 
sb.append (password) ; 
try{ 


s = DatatypeConverter.printBaseé4Binary ( 
sb.toString() .getBytes ("UTF-8") ) ; 
} catch (UnsupportedEncodingException ex) { 
throw new RuntimeException (ex) ; 


} 
} 


return s; 


程序 执行 的 结果 如 下 ， 从 中 可 以 看 到 输出 了 CAS 服 务 器 中 的 controller 和 worker 节 点 的 信息 : 


name":"ssscrdlax06", 
5580, 

"type": "Controller", 
"connected": true, 
"pid":11057, 
“"httpPort":8777, 


"httpProtocol":"http", 
"uuid" :"81EE85A2-1AE8-2640-9A2D-9E1EA5EAC7BO" 


ssscrdlax07.unx.sas.com" 


: :0, 
De :"Worker", 
"connected": tee; 
"pid":3711, 
"httpPort":55197, 
"httpProtocol":"http", 
"uuid" :"7821C3A1-5AA0-C741-8C7D-116540E476CD" 


ssscrdlax08.unx.sas.com" 


0, 
"type" :"Worker", 
"connected": true; 
"pid": 3132, 
"httpPort":53509, 
"httpProtocol":"http", 
"uuid" :"75CB9809-C2D6-1E4B-94C9-B8C11D36108B" 


注意 ”对 代码 9.11 输 出 的 Json 结 果 字 符 串 ， 可 以 使 用 Json 字 符 串 格式 化 工具 http://www.json.cn/ 来 将 其 格式 化 为 易 读 的 数据 格式 。 


可 以 改变 上 述 程序 中 的 endpoint， 以 查看 不 同 服务 器 端的 信息 。 比 如 ， 修 改 endpoint 为 : 


String add_url = "http://host:8777/system"; 


程序 运行 的 结果 为 : 


{ 
100, 
74096, 
"Linux version 2.6.32-358.6.2.e16.x86_ 64 (mockbuild@x86-022.build.eng.bos.redhat.com) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-3) (GCC) ) #1 SMP Tue May 14 15:48:21 EDT 2013" 
513443, 
"ro root=/dev/sda2 LANG=en_US.UTF-8 SYSFONT=latarcyrheb-sun16 KEYBOARDTYPE=pc KEYTABLE=us crashkernel=131M@0M rhgb quiet", 
"160697.65", 
:1282502.79", 
null, 
1984, 
0, 
640000, 
268747, 
261, 
"160697.65", 
1282502.79", 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Array[8], 
array(9] 
} 


更 多 的 通用 类 endpoint 的 列表 可 以 在 下 面 的 文档 中 获取 到 : 


http://docdashboard.unx.sas.com/restapis/showapi.html? vb007/casrestapi-external.json 


通过 运行 上 述 程序 ， 可 以 看 到 通过 调用 通用 类 REST Services， 可 以 很 容易 地 获取 到 CAS 服 务 器 端的 信息 。 


9.5.2 ”使 用 Java 调 用 REST Services 进 行 描述 性 统计 分 析 


下 面 调 用 CAS REST Services 来 进行 描述 性 统计 分 析 。 


为 了 进行 描述 性 统计 分 析 ， 需 要 调用 CAS ACTION simple.summary。 在 调用 CAS ACTION 的 时 候 ， 需 要 指定 当前 会 话 的 UUID， 并 指定 ACTION 的 名 字 。 同 时 还 需要 给 出 Json 格 式 的 REST 请 求 。 样 例 
如 代码 9.12 所 示 。 


在 代码 9.12 中 ， 
变量 endpoint 包 含 了 当前 session 的 UUID， 还 指定 了 将 要 调用 的 ACTION 的 名 字 simple.summaty。 


可 以 运行 代码 9.2 获 取 会 话 的 UUID， 或 者 在 SAs Studio 中 间 执行 建立 会 话 的 语句 获得 会 话 的 UUID。 具 体 语句 为 : 


cas mysess; 


在 日 志 中 可 以 看 到 当前 会 话 的 UUID 为 9200fcda-2f04-024d-92bc-4efd27862a15: 


57 cas mysess; 

NOTE: The session MYSESS connected successfully to Cloud Analytic Services 10.121.17.193 using port 5570. The UUID is 
9200£cda-2£04-024d-92bc-4efd27862a15. The user is cfgsasl and the active caslib 

is CASUSERHDFS (cfgsas1) . 

NOTE: The SAS option SESSREF was updated with the value MYSESS. 

NOTE: The SAS macro _SESSREF_ was updated with the value MYSESS. 

NOTE: The session is using 2 workers. 


变量 query 定 义 了 发 送 的 Json 请 求 字 符 串 中 。 指 定 了 将 要 进行 的 描述 性 统计 运算 ， 包 括 最 大 值 、 最 小 值 和 均值 。 还 包含 了 使 用 的 数据 的 caslib 和 表 的 名 字 。 


:和 代码 9.11 一 样 ， 根 据 用 户 和 密码 ， 用 getEncodedAuthorization 函 数 生成 了 访问 REST Services 需 要 的 认证 信息 。 


代码 9.12 具 体 如 下 : 


代码 9.12 ”调用 CAS REST Services 进 行 描述 性 统计 分 析 


import java.io.BufferedReader; 

import java.io. IOException; 

import java.io. InputStreamReader; 

import java.io.OutputStream; 

import java.io.UnsupportedEncodingException; 
import java.net .HttpURLConnection; 

import java.net .MalformedURLException; 
import java.net .URL; 


import javax.xml.bind.DatatypeConverter; 


public class Simple Summary REST Services { 


} 


public static void main (String[] args) { 


try { 
/* 根 据 不 同 的 环境 ,需要 替换 host、username 和 Passwordx/ 
String endpoint = "http://host:8777/cas/sessions/ 
session UUID/actions/simple.summary"; 


String username = "username"; 

String password = "password"; 

String query= "{" + 
"\"subSet\": [ \"MAX\", \"MEAN\", \"MIN\" ]," + 
"\"table\":" + 
mom 


"\"caslib\": \"CASUSER\"," + 
"\"name\": \"ORSALES\"" + 

myn g 

nym, 
byte[] data = query.getBytes ("utf-8"); 
URL url = new URL(endpoint) ; 
HttpURLConnection connection = 

(HttpURLConnection) url.openConnection () 7 

connection.setDoInput (true) ; 
connection.setDoOutput (true) ; 
connection.setRequestMethod ("GET") ; 
connection.setUseCaches (false); 
connection.setInstanceFollowRedirects (true) ; 
connection.setRequestProperty ( 

"Content-Type", "application/json") ; 
String author = "Basic " + 
Simple Summary REST Services. 

getEncodedAuthorization (username, password) ; 

connection.setRequestProperty ("Authorization", author); 
connection.connect () ; 
OutputStream out = connection.getOutputStream() ; 
out .write (data) ; 
out. flush (); 
out.close(); 


System. out .Println (connection.getResponseCode () ) ; 
BufferedReader reader = new BufferedReader ( 
new InputStreamReader (connection.getInputStream())); 


String lines; 

StringBuffer sbf = new StringBuffer () 7 

while ((lines = reader.readLine()) != null) { 
lines = new String(lines.getBytes(), "utf-8"); 
sbf.append (lines) ; 

} 

System.out .println (sbf); 

reader.close(); 

connection.disconnect () 7 


} catch (MalformedURLException e) { 
e.printStackTrace () 7 

} catch (IOException e) { 
e.printStackTrace () 7 

}catch (Exception e) { 
e.printStackTrace () 7 

} 


/* getEncodedAuthorization 函 数 根据 用 户 和 密码 生成 认证 信息 */ 


private static String getEncodedAuthorization ( 
String userName, String password) 


{ 
String s = null; 


if (userName != null && password != null) { 
StringBuffer sb = new StringBuffer (); 
sb.append (userName) .append(":") ; 
sb. append (password) ; 
try{ 


s = DatatypeConverter.printBase64Binary ( 
sb.toString() .getBytes ("UTF-8") ) ; 
} catch (UnsupportedEncodingException ex) { 
throw new RuntimeException (ex) ; 
} 
} 


return s; 


程序 的 运行 结果 如 下 ， 其 中 显示 了 Quantity 和 Profit 变 量 的 最 小 值 、 最 大 值 和 均值 。 下 面 只 展示 了 部 分 经 过 工具 http://json.cn 格 式 化 之 后 的 结果 : 


i 


"status":0, 
"log":"", 
"results": { 
"Summary": { 
"_ctb": true, 
"label":"Descriptive Statistics for ORSALES", 
"title":"Descriptive Statistics for ORSALES", 
"name" 


{ 


"format": 
"type": "double", 
"width":8, 
"attributes": { 


} 
ty 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...} 


l]; 
"attributes" :Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/... 


"rows": [ 
Array[4], 
[ 


"Quantity", 

10, 

9026, 
1465.08552631578 


"Profit", 
209.8, 
552970.510000002, 
64786 .2373519737 
] 
Array [4] 


} 
F; 
"logEntries": [ 


]， 

"disposition" :Object{http://www.hzcourse .com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/0EBPS/Text/...}, 
"changedResources":Array[0], 

“"metrics":Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...} 


9.5.3 ”使 用 java 调用 REST Services 进 行 线性 回归 分 析 


与 调用 REST Services 进 行 描述 性 统计 非常 类 似 ， 只 需要 修改 对 应 ACTION 的 endpoint 和 发 送 的 Json 数 据 请 求 ， 就 可 以 很 容易 地 进行 线性 回归 分 析 。 


进行 线性 回归 的 ACTION 的 endpoint， 和 发 送 的 Json 数 据 请 求 具体 如 下 。 


“ 在 endpoint 变 量 中 ，ACTION 的 名 字 是 simple.regression。 
+ 在 Json 请 求 数据 中 ， 可 以 看 到 自 变 量 设 定 为 Quantity， 因 变量 为 Profit。 回 归 使 用 的 数据 为 caslib CASUSER 下 面 的 数据 表 orsales。 


线性 回归 REST Services 中 的 其 他 变量 可 以 参考 9.1.3 节 中 ACTION 的 文档 的 介绍 。 


String endpoint = "http://host:8777/cas/sessions/ 
session UUID/actions/simple.regression"; 
String query = mere 
"\"inputs\"2 "+ 
"prg 
"gn 
"\"name\": \"Quantity\""+ 
my omy 
"J, "+ 
"\"table\":"+ 
"gng 
"\"caslib\": \"CASUSER\", "+ 
"\"name\": \"ORSALES\" 
"j "+ 
"\"target\": \"Profit\""+ 


nym, 


归 的 分 析 。 


回 


只 需要 对 代码 9.12 稍 做 修改 ， 蔡 换 变量 endpoint 和 query 的 内 容 ， 就 可 以 调用 ACTION REST API 进 行 线性 | 


程序 运行 的 结果 显示 如 下 ， 其 中 列 出 了 响应 变量 、 自 变量 和 截 距 的 估计 值 。 


下 面 只 展示 了 部 分 经 过 工具 http://json.cn 格 式 化 之 后 的 结果 : 


"status":0, 
"log": my 
"results": { 
"Regression": { 
"_ctb": true, 
"label":"Linear Regression Analysis for ORSALES", 
"Linear Regression Analysis for ORSALES", 
:"Regression", 


"name": "Response", 
"label":"Response Variable", 
"format":" 


] 


matt rtbuteatls { 
ty 


"name": "Intercept", 
"label": "Intercept", 


"ateributes =f 
} 


hy 

Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 
Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...} 
l; 


"attributes" :Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...}, 


"rows": [ 
[ 
nProfit", 
"Quantity", 
4001.55983684723, 
41.4888253438555, 
0, 
0, 
2323532736661.79, 
6447678731929.58, 
0.63963267506561, 
0.79977038896524, 
912, 
64786.2373519737, 
1465.08552631578, 
84128 . 3761842329, 
1621.72304436772 
] 
] 
} 
ks 
"logEntries":Array[0], 


"disposition":Object{http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16482/0EBPS/Text/...}, 


"changedResources":[ 


l; 
“"metrics":Object {http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16482/OEBPS/Text/...} 


从 上 面 的 程序 可 以 看 出 ， 只 需要 正确 指定 了 endpoint 和 Json 的 数据 请 求 ， 就 可 以 很 方便 地 通过 REST APl 来 调用 SAs Viya 的 分 析 服务 。 


9.6 本 章 小 结 


本 章 首先 介绍 了 SAS Viya 开 放 平 台 和 SWAT， 以 及 如 何 通 过 ACTION 和 ACTION 集 调用 SAS Viya 提 供 的 分 析 服 务 。 然 后 ， 通 过 样 例 程序 讲解 了 如 何 使 用 Java、Lua、Python 和 REST APl 来 开发 基于 SAs 
Viya 的 应 用 。 从 系统 需求 和 开发 环境 配置 ， 到 ACTION 的 调用 ， 再 到 如 何 进行 描述 性 统计 分 析 和 线性 回归 分 析 ， 结 合 源 代码 和 程序 运行 结果 的 讲解 ， 使 得 大 家 能 够 系统 理解 如 何 利 用 第 三 方程 序 开发 基于 
SAS Viya 的 应 用 。 


